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“《 编 程 珠 现 》 是 对 我 职业 生涯 影响 最 大 的 书 之 一 ， 其 中 的 许多 真知 灼 见 多 年 之 后 仍然 使 我 受益 菲 浅 。Jon 在 《编程 珠 现 ( 续 ) 》 
—— Steve McConnell， 软 件 工 程 大 师 ，/EEE Software 前 主编 ，《 代 码 大 全 》 作 者 


“对 每 一 位 遇 到 的 程序 员 ， 我 都 会 毫 不 迟疑 地 建议 他 阅读 并 不 断 重读 这 部 经 典 之 作 。 
—Slashdot 


More Programming Pearls Confessions of a Coder 


程 珠 现 Wes 


多 年 以 来 ， 当 程序 员 们 推选 出 最 心爱 的 计算 机 图 书 时 ，《 编 程 珠 现 》 总 是 位 于 前 列 。 正 如 自然 界 里 珍珠 出 自 细 沙 对 牡 师 的 磨 
硕 ， 计 算 机 科学 大 师 Jon Bentley 以 其 独 有 的 洞察 力 和 创造 力 ， 从 磨 三 程序 员 的 实际 问题 中 凝结 出 一 篇 篇 不 朽 的 编程 “ 珠 现 ”， 发 
表 在 《ACM 通 讯 》 最 受 欢 迎 的 专栏 中 ， 最 终结 集 为 两 部 不 朽 的 计算 机 科学 经 典 名 著 ， 影响 和 激励 着 一 代 又 一 代 程 序 员 和 计算 机 科 
学 工作 者 。 本 书 为 续集 ， 秉 承 了 《编程 珠 现 》 的 风格 ， 但 涉及 的 主题 更 广 ， 包 括 文档 、 小 语言 、 性 能 监视 、 图 形 输出 等 。 

作者 选取 许多 具有 上 典型 意义 的 复杂 编程 和 算法 问题 ， 生 动 描 绘 了 计算 机 大 师 们 在 探索 解决 方案 过 程 中 发 生 的 轶 事 、 走 过 的 弯 
路 和 不 断 精益 求 精 的 历程 ， 引 导读 者 像 真 正 的 程序 员 和 软件 工程 师 那样 富有 创新 性 地 思考 ， 并 透彻 阐述 和 总 结 了 许多 独特 而 精妙 
的 设计 原则 、 思 考 和 解决 问题 的 方法 以 及 实用 程序 设计 技巧 。 每 章 后 所 附 习题 极 具 挑 战 性 和 启发 性 ， 书 末 给 出 了 简洁 的 解答 。 
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本 书 是 计算 机 科学 方面 的 经 典 名 著 《 编 程 珠 现 》 的 姊妹 篇 ， 讲 述 了 对 于 程序 员 有 共性 的 知识 。 书 中 涵 
盖 了 程序 员 操 纵 程序 的 技术 、 程 序 员 取舍 的 技巧 、 输 入 和 输出 设计 以 及 算法 示例 ， 这 些 内 容 组 成 一 个 有 机 
的 整体 ， 如 一 串 串珠 珊 展 示 给 程序 员 。 本 书 适合 各 级 程序 员 阅 读 参考 。 
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本 书 作 者 Jon Bentley 是 美国 著名 的 程序 员 和 计算 机 科学 家 ， 他 于 20 世纪 70 年 代 前 后 在 很 
有 影响 力 的 《ACM iit) (Communications of the ACM) 上 以 专栏 的 形式 连续 发 表 了 一 系列 短文 ， 
成 功 地 总 结 和 提炼 了 自己 在 长 期 的 计算 机 程序 设计 实践 中 积累 下 来 的 宝贵 经 验 。 这 些 短文 充满 了 
真知 灼 见 ， 而 且 文 笔 生 动 、 可 读 性 强 ， 对 于 提高 职业 程序 员 的 专业 技能 很 有 帮助 ， 因 此 该 专栏 大 
受 读 者 欢迎 ， 成 为 当时 该 学 术 期 刊 的 王牌 栏目 之 一 。 可 以 想象 当时 的 情形 ， 颇 似 早 年 金庸 先生 
在 《明报 》 上 连载 其 武侠 小 说 的 盛况 。 后 来 在 ACM 的 鼓励 下 ， 作 者 经 过 仔细 修订 和 补充 整理 ， 
对 各 篇 文章 做 了 精心 编排 ， 分 别 在 1986 年 和 1988 年 结集 出 版 了 Programming Pearls 〈《 编 程 珠 
ILY) 和 More Programming Pearls (KFE IL CED 这 两 本 书 ， 二 者 均 成 为 该 领域 的 名 著 。《 编 
程 珠 丽 〈 第 2 版 )》 在 2000 年 问世 ， 书 中 的 例子 都 改 用 C 语言 书写 ， 并 多 处 提 到 如 何 用 C++ 和 
Java 中 的 类 来 实现 《编程 珠 现 〈 续 )》 虽 未 再 版 ， 例 子 多 以 Awk 语言 写成 ， 但 其 语法 与 C 相近 ， 
容易 看 懂 。 


(ea, FWE, ABET SN SSA Se, ORAL RAR), 还 
EMME ZA., Oo CG! 灵机 一 动 》 都 在 作者 笔下 信 手 拓 来 、 娓 妮 道 出 ， 更 不 用 说 随处 
可 见 的 作者 自己 的 真知 灼 见 了 。 如 果 说 《计算 机 程序 设计 艺术 》 这 样 的 巨著 代表 了 程序 员 们 使 用 
的 “坦克 和 和 大炮 ”一 类 的 重型 武器 ， 这 两 本 书 则 在 茶 种 程度 上 类 似 于 鲁迅 先生 所 说 的 “已 首 与 投 
枪 ” 一 类 的 轻型 武器 ， 更 能 满足 职业 程序 员 的 日 常 需要 。 或 者 说 前 者 是 武侠 小 说 中 提高 内 力 修 为 
的 根本 秘籍 ， 后 者 是 点 拨 临 阵 招 数 的 速成 宝典 ， 二 者 同样 都 是 克 敌 制胜 的 法 宝 ， 缺 一 不 可 。 在 无 
止境 地 追求 精 潢 技艺 这 一 点 上 ， 程 序 员 、 数 学 家 和 武侠 们 其 实 是 相通 的 。 


在 美国 , 这 两 本 书 不 仅 被 用 作 大 学 低 年 级 数据 结构 与 算法 课程 的 教材 ,， 还 用 作 高 年 级 算法 课 
程 的 辅助 教材 。 例 如， 美国 著名 大 学 有 抹 省 理工 学 院 的 电气 工程 与 计算 机 科学 开放 式 核心 课程 算法 
导论 就 将 这 两 本 书 列 为 推荐 读物 。 这 两 本 书 禾 盖 了 大 学 算法 课程 和 数据 结构 课程 的 大 部 分 内 容 ， 
但 是 与 普通 教材 的 侧重 点 又 不 一 样 ， 不 强调 单纯 从 数学 上 进行 分 析 的 技巧 ,而 是 强调 结合 实际 问 
题 来 进行 分 析 、 应 用 和 实现 的 技巧 ， 因 此 可 作为 大 学 计算 机 专业 的 算法 、 数 据 结构 、 软 件 工程 等 
课程 的 教师 参考 用 书 和 优秀 课外 读物 。 书 中 有 许多 真实 的 历史 案例 和 许多 极 好 的 练习 题 以 及 部 分 
练习 题 的 提示 与 解答 ， 非 常 适合 目 学 。 正 如 作者 所 建议 的 那样 ， 阅 读 这 两 本 书 时 ， 读 者 需要 备 有 
纸 和 笔 ， 最 好 还 有 一 台 计 算 机 在 手边 ， 边 读 边 想 、 边 想 边 做 ， 这样 才能 将 阅读 这 两 本 书 的 收益 最 
大 化 。 


2 译 者 È 


人 民 邮 电 出 版 社 引进 版 权 ， 同 时 翻译 出 版 了 《编程 珠 现 〈 第 2 O A ERIL E), 
使 这 两 个 中 译本 珠联璧合 ， 相 信 这 不 仅 能 极 大 地 满足 广大 程序 员 读 者 的 需求 ， 还 有 助 于 提高 国内 
相关 课程 的 授课 质量 和 学 生 的 学 习 兴 趣 。 

本 书 主要 由 钱 丽 艳 和 刘 田 翻译 ， 翻 译 过程 中 得 到 了 严 浩 、 李 梁 、 任 铁 田 三 位 研究 生 的 帮助 ， 


在 此 一 并 表示 感谢 。 由 于 本 书 内 容 深刻 ,语言 精妙 ， 而 译 者 的 水 平和 时 间 都 比较 有 限 ， 错误 利 不 
当 之 处 在 所 难免 ， 敬 请 广大 读者 批评 指正 。 





计算 机 编程 充满 乐趣 ， 有 时 候 ， 它 又 是 一 门 优雅 的 科学 ， 还 要 靠 它 去 开发 和 使 用 新 的 软件 工 
具 。 编程 与 人 息息相关 : 客户 实际 想 解决 什么 问题 ? 如 何 让 用 户 容易 与 程序 沟通 ? 是 编程 让 我 接 
触 到 相当 广泛 的 话题 ， 从 有 机 化 学 到 拿破仑 战争 。 本 书 描述 了 编程 的 所 有 这 些 方面 的 知识 ， 而 且 
远 不 止 这 些 。 


这 是 一 部 短文 集 ， 每 篇 短文 独立 成 章 ， 但 所 有 短文 义 依 据 逻 辑 分 成 了 几 组 。 第 1 章 至 第 4 章 
描述 操纵 程序 的 技术 , 第 5 章 至 第 8 章 给 出 了 一 些 程序 员 的 实用 技巧 ,这 是 本 书 技术 性 最 低 的 部 
分 ; 第 9 章 至 第 12 章 讲 解 输 入 和 输出 设计 ; 第 13 章 至 第 15 章 介 绍 了 3 个 有 用 的 子 程序 。 这 些 
分 类 主题 在 每 个 部 分 的 引言 中 进行 了 详细 说明 。 


本 书 大 多 数 章 都 是 以 我 在 《ACM 通讯 》 杂 志 中 的 “编程 珠 丽 ” (Programming Pearls) 专栏 
文章 为 基础 的 。 各 部 分 的 引言 中 描述 了 这 些 文 章 的 发 表 历 史 。 婚 然 已 经 发 表 过 ， 为 什么 我 还 要 费 
HERA? 自首 次 发 表 以 来 ， 这 些 专 栏 文章 发 生 了 很 大 变化 ， 有 了 数 千 处 小 改进 : 有 了 新 的 
问题 和 解决 方案 ， 纠 正 了 小 错误 ， 并 采纳 了 很 多 读者 的 意见 。 与 此 同时 ， 我 删除 了 一 些 且 的 内 容 
以 免 重复 ， 并 加 入 了 很 多 新 的 内 容 ， 其 中 有 一 章 是 全 新 的 。 


然而 ， 写 本 书 的 最 大 理由 是 ， 我 想 把 各 章 组 成 一 个 有 机 的 整体 ， 我 想 展示 一 整 串珠 丽 。 我 
1986 年 出 版 的 《编程 珠 丽 》 是 类 似 的 13 篇 短文 的 结集 ， 围 绕 性 能 这 个 中 心 主题 来 组 织 ， 该 主题 
在 最 时 两 年 的 《ACM 通讯 》 专 栏 中 占据 了 突出 位 置 。 本 书 中 也 有 几 章 再 次 谈 及 效率 的 话题 ， 但 
全 书 考察 的 编程 领域 范围 要 大 得 多 。 


读者 阅读 本 书 时 不 要 太 快 ,一 次 一 章 ， 和 仔细 地 读 。 试 解 一 下 书 中 提出 的 问题 一 一 有 些 问题 并 
不 像 看 起 来 那样 容易 。 有 些 章 末尾 的 “深入 阅读 ”并 不 是 学 术 意 义 上 的 参考 文献 列表 ， 而 是 我 推 
荐 的 一 些 好 书 ， 这 些 书 是 我 个 人 藏书 的 重要 部 分 。 


我 很 高 兴 能 借 此 机 会 感谢 许多 人 所 作 的 重要 贡献 。Al Aho, Peter Denning, Brian Kernighan 
和 Doug Mellroy 对 各 章 提出 了 详细 意见 。 我 还 要 感谢 以 下 诸位 提出 有 益 的 见解 : Bill Cleveland, 
Mike Garey, Eric Grosse, Gerard Holzmann, Lynn Jelinski, David Johnson, Arno Penzias, Ravi Sethi, 
Bjarne Stroustrup. Howard Trickey 和 Vic Vyssotsky。 感 谢 允 许 我 引用 他 们 信件 的 几 人 个人， 特别 是 
Peter Denning. Bob Floyd, Frank Starmer, Vic Vyssotsky 和 Bruce Weide。 我 特别 要 感谢 ACM H 


2 前 


nul 


励 我 把 专栏 文章 出 版 成 书 ， 还 要 感谢 《ACM 通讯 》 的 许多 读者 ， 他 们 对 原始 专栏 文章 提出 了 不 
少 意见 ， 使 得 本 书 这 个 扩充 版 本 的 出 版 十 分 必要 。 贝 尔 实 验 室 〈 特 别 是 其 计算 科学 研究 中 心 ) 在 
我 写 这 些 专栏 文章 时 ， 提 供 了 极 佳 的 支持 环境 。 感 谢 所 有 的 人 。 


Jon Bentley 
于 新 泽 西 州 Murray Hill 
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编程 技术 


我 可 没有 耐心 把 最 好 的 留 到 最 后 ， 这 4 章 讨论 程序 员工 作 中 最 精彩 的 部 分 你 盯 着 计算 机 
屏幕 ， 项 着 键盘 度 过 的 那些 美好 时 光 。 


和 NERA ose) A 序 的 动态 行为 ， 第 2 音 讨论 一 种 强大 
第 3 章 撞 述 用 来 测试 和 调试 小 的 了 程序 的 见于 架 





Ce 第 4 章 给 出 让 数据 文件 自 描述 (self-describing ) 的 方法 。 o 

这 些 技术 都 是 用 来 处 理 真实 程序 的 , 所 以 要 用 真实 系统 上 的 真实 语言 来 说 明 。 第 1 eH C 
语言 ， 第 2 章 和 第 3 章 包 含 几 个 Awk 程序 。 所 有 例子 都 使 用 TERIOR 言 。 附 录 A 为 不 熟悉 
这 些 程序 的 读者 简单 描述 了 C 和 Awk。 虽然 本 书 只 :使 用 TERET 进行 说 明 ， 但 所 介绍 的 技术 
可 用 在 任何 系统 上 。 ， 

Mee sin ve ci) Ce r a ce 
版 本 一 起 发 表 于 1985 年 6 月 和 7 月 两 期 ， 第 4 章 发 表 在 1987 年 6 月 那 一 期 。 





第 1 章 性 能 监视 工具 
第 2 章 关联 数组 
第 3 章 ”程序 员 的 慎 悔 





听诊 器 是 一 种 简单 工具 ， 却 给 医生 的 工作 带 来 了 革命 ， 它 让 内 科 医 生 能 有 效 地 监控 病人 的 身 
体 。 性 能 监视 工具 〈profiler) 对 程序 起 看 同样 的 作用 。 


你 现在 用 什么 工具 来 研究 程序 ? 复杂 的 分 析 系 统 很 多 ， 既 有 交互 式 调 试 器 ， 又 有 程序 动画 系 
统 。 正 如 CT 扫描 仪 永远 代替 不 了 听诊 器 一 样 ， 复 杂 的 软件 也 永远 代替 不 了 程序 员 用 来 监控 程序 - 
的 最 简单 工具 一 一 性 能 监视 工具 ， 我 们 用 它 了 解 程序 各 部 分 的 执行 频率 。 : 


本 章 先 用 两 种 性 能 监视 工具 来 加 速 _ 个 小 程序 〈 记 住 真正 的 日 的 是 说 明 性 能 监视 工具 ) 后 
续 各 节 简要 介绍 性 能 监视 工具 的 各 种 用 途 、 非 过 程 语言 的 性 能 监视 工具 ， 以 及 开发 性 能 只 视 工具 的 
技术 。 


1.1 计算 素数 


程序 P1 是 个 ANSI 标 准 C 程 序 , 依次 打印 所 有 小 于 1000 的 素数 (如 果 读 者 不 了 解 C, 请 看 附录 A )。 
程序 P1 


int prime(int n) 
{ int ir 
999 for (1 = 2: 1 <= ny itt) 
78022 if (nti == 0) 
831 return 0; 
168 return 1; 
} 
main () 
{ int i, 7; 
1 n = 1000; 
i for (3 = 2; i <= N; 1+t) 
999 if (prime(i)) 
168 Drinte("$d\n“,. i). 
} 


WRENS WER, bËprineMZ0E CO, GUERO. KARARSIZ [5] 
OIR, TIET. Hina n AE Mprine FARA RAIA ~ 1000, SOS 
就 打印 出 来 。 
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我 像 写 任何 一 个 C 程 序 那样 写 好 程序 P1, 然后 在 性 能 监视 选项 下 进行 编译 。 在 程序 运行 之 后 ， 
只 要 一 个 简单 的 命令 就 生成 了 前 面 所 示 的 列表 。( 我 稍微 改变 了 一 些 输 出 的 格式 。) 每 行 左 侧 的 数 
由 性 能 监视 工具 生成 ， 用 于 说 明 相 应 的 行 执行 了 多 少 次 。 例 如 ，main 函 数 调用 了 1 次 ， 其 中 测试 
了 999 个 整数 ， 找 出 了 168 个 素数 。 函 数 prime 被 调用 了 999 次 ， 其 中 168 次 返回 1， 田 外 831 次 返回 
0 快速 验证 : 168+831=999). prime AANA T78 022 个 可 能 的 因子 ， 或 者 说 为 了 确定 素数 
性 ， 对 每 个 整数 检查 了 大 约 78 个 因子 。 


程序 P1 是 正确 的 ， 但 是 很 慢 。 在 VAX-11/7$S0 上 ， 计 算出 小 于 1000 的 所 有 素数 约 需 几 秒 钟 ， 但 
计算 出 小 于 10 000 的 所 有 素数 却 需 要 3 分 钟 。 对 这 些 计 算 的 性 能 监视 表明 ， 大 多 数 时 间 花 在 了 测 
试 因子 上 。 因 而 下 一 个 程序 只 对 n 考 虑 不 超过 Va 的 可 能 的 整数 因子 。 整 型 函数 root 先 把 整 型 参 
数 转换 成 浮 点 型 ， 然 后 调用 库 函 数 sqart， 最 后 再 把 浮 点 型 结果 转换 回 整 型 。 程 序 P2 包 含 两 个 旧 
函数 和 这 个 新 函数 root。 

程序 P2 

int root(int n) 
5456 { return (int) sgqrt((float) n): } 


int prime(int n) 


{ int i; 
999 for (i = 2; i <= root(n); i++} 
5288 if (n ẹ i == 0) 
831 return 0; 
168 return 1; 
} 
main () 
{ int i, n; 
1 n = 1000; 
1 for (i = 2; i <= n: i++) 
999 if (prime(i)) 
168 print£t("sd\n", i); 


修改 最 然 是 有 效 的 : 程序 P2 的 行 计数 显示 ， 只 测试 了 5288 个 因子 (程序 P1 的 1/114)， 总 共 调 
用 了 5456 次 root〈 测 试 了 $288 次 整除 性 ，168 次 由 于 i 超 出 了 root (n) 而 终止 循环 )。 不 过 ， 虽 然 
计数 大 大 减少 了 ， 但 是 程序 P2 运 行 了 5.8 秒 ， 而 程序 Pl1 只 运行 了 2.4 秒 (本 节 末 尾 的 表 中 含有 运行 

时 间 的 更 多 细节 )。 这 说 明 什 么 呢 ? 


迄今 为 止 ， 我 们 只 看 到 了 行 计 数 〈line-count) 性 能 监视 。 过 程 时 间 Cprocedure-time) 性 能 监 
视 给 出 了 较 少 的 控制 流 细节 ， 但 更 多 地 揭示 了 CPU 时 间 : 


time cumsecs #call ms/call name 
82.7 4.77 _sqrt 
4.5 5.03 999 0.26 _prime 
4.3 5.28 5456 0.05 _root 
2.6 5.43 _frexp 
1.4 5.51 _ _doprnt 
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1.2 5.57 _write 
0.9 5.63 mcount 
0.6 5.66 _creat 
0.6 5.69 _printf 
0.4 5.72 1 25.00 _main 
0.3 5.73 _close 
0.3 5.75 exit 
0.3 5.77 _isatty 


过 程 按照 运行 时 间 递 减 的 顺序 列 出 。 时 间 上 既 显 示 出 总 秘 数 ， 也 显示 出 占 总 时 间 的 百分比 。 
编译 后 记录 下 源 程 序 中 main、prime 和 root 这 3 个 过 程 的 调用 次 数 。 再 次 看 到 这 几 个 计数 是 令 人 
鼓舞 的 。 其 他 过 程 没有 性 能 监视 的 库 函 数 ， 完 成 各 种 输入 /输出 和 清理 维护 工作 。 第 4 列 说 明了 带 
语句 计数 的 所 有 函数 每 次 调用 的 平均 窗 秒 数 。 

过 程 时 间 性 能 监视 说 明 ，sqrt 占 用 CPU 时 间 的 最 多 ; 该 函数 共 被 调用 54$6 次 ， fo 循环 的 每 
次 测试 都 要 调用 一 次 sqrt。 程 序 P3 通 过 把 sqrt 调 用 移 到 循环 之 外 ， 使 得 在 prime 的 每 次 调用 中 
只 调用 一 次 费时 的 sqrt 过 程 。 | 


程序 P3 
int prime(int n) 
{ int i, bound; 
999 bound = root (n); 
999 for (i = 2; i <= bound; i++) 
5288 if (n $ i == 0) 
831 return 0; 
168 return 1; 


} 


当 z=1000 时 ， 程 序 P3 的 运行 速度 大 约 是 程序 P2 的 4 倍 ， 而 当 = 100 000 时 则 超过 10 倍 。 以 产 = 
100 000 的 情形 为 例 ， 过 程 时 间 性 能 监视 显示 ，sqrt 占 用 了 程序 P2 的 88% 的 运行 时 间 ， 但 是 内 占 
用 了 程序 P3 的 48% 的 运行 时 间 。 这 好 多 了 ， 但 仍然 是 循环 的 累 莹 。 


程序 P4 合 并 了 另外 两 个 加 速 措 施 。 首 先 ， 程 序 P4 通 过 对 被 2、3 和 5 整除 的 特殊 检验 ， 避 免 了 
近 3/4 的 开 方 运算 :语句 计数 表明 ， 被 2 整除 的 性 质 大 约 把 一 半 的 输入 归 入 合 数 ， 被 3 整除 把 剩余 
输入 的 1/3 归 入 合 数 ,被 5 整除 再 把 剩 下 的 这 些 数 的 1/5 归 入 合 数 。 其 次 ,只 考虑 奇数 作为 可 能 的 因 
T. 在 剩余 的 数 中 避免 了 大 约 一 半 的 整除 检验 。 它 比 程序 P3 大 约 快 两 倍 , 但 是 也 比 P3 的 错误 更 多 。 
下 面 是 《 带 错 的 ) 程序 P4， 你 能 通过 检查 语句 计数 看 出 问题 吗 ? 

程序 P4 


int root(int n) 
265 { return (int) sqrt((float) n); } 


int prime(int n) 
{ int i, bound; 


999 if (n % 2 == 0) 
500 return 0; 
499 if (n $ 3 == 0) 
167 return 0; 


332 if (n % 5 == 0) 
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67 return 0; 
265 bound = root(n); 
265 for {i = 7; 1 <= bound; i = i+2) 
1530 if {n $ i == 0) 
100 return 0; 
165 return 1; 
} 
main () 
{ int i, n; 
1 n = 1000; 
1 for (i = 2; i <= n; itt) 
999 if (prime(i)) 
165 print£("$d\n", i}; 


} 


先前 的 程序 找到 168 个 素数 ， 而 程序 P4 只 找到 165 个 。 丢 失 的 3 个 素数 在 哪里 ? 对 了 ， 我 把 3 
个 数 作为 特殊 情形 ， 每 个 数 都 引入 了 一 处 错误 : prime 报 告 2 不 是 素数 ， 因 为 它 被 2 整除 。 对 于 3 
和 5， 存 在 类 似 的 错误 。 正 确 的 检验 是 
if (n % 2 == 0) 
return (n == 2); 
依 此 类 推 。 如 果 n 被 2 整除 ， 如 果 n 是 2 就 返回 1， 否 则 返回 90。 对 于 n=1000、10 000 和 100 000， 程 序 
P4 的 过 程 时 间 性 能 监视 结果 总 结 在 下 表 中 。 






时 间 百 分 比 


prime 其 他 


sqrt 








1000 
10 000 
100 000 





程序 P5 比 程序 P4 快 ， 并 且 有 个 好 处 : IER. CHR WAIST RE, ML SREB 
段 所 示 。 


程序 P5 的 片段 

265 for (i = 7; i*i <= nn; i = i+2) 
1530 if (n $ i == 0) 

100 return 0; 

165 return 1; 


它 还 加 入 了 对 被 2、3、5 整 除 的 正确 检验 。 程 序 P$ 总 的 加 速 大 约 有 209%4。 


最 后 的 程序 只 对 已 被 判定 为 素数 的 整数 检验 整除 性 ， 程 序 P6 在 1.4 节 ， 用 Awk 语 言 写成 。C 实 
现 的 过 程 时 间 性 能 监视 结果 表明 ， 在 n=1 000 时 ，49% 的 运行 时 间 花 在 prime 和 main 上 (其 余 是 
输入 /输出 )， 而 当 n=100 000 时 ，88% 的 运行 时 间 花 在 这 两 个 过 程 上 。 

下 面 这 个 表 总 结 了 我 们 已 经 看 到 的 这 几 个 程序 。 表 中 还 包含 另外 两 个 程序 作为 测试 基准 。 程 
序 Q1 用 习题 答案 2 中 的 埃 氏 第 法 程序 计算 素数 。 程 序 Q2 测 量 输 入 /输出 开销 。 对 于 n=1 000， 它 打 
印 整数 1, 2,…, 168; 对 于 一 般 的 x， 它 打印 整数 1, 2,…, P(n)， 其 中 P(n) 是 比 p 小 的 素数 的 个 数 。 
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运行 时 间 〈 秒 )，m= 
1000 10 000 100 000 











， 简 单 版 本 
P2， 只 检验 平方 根 以 下 


P3， 只 计算 一 次 开 方 192 
P4， 特 殊 情 形 2、3、5 78 
PS$， 用 乘法 代替 开 方 64 
P6， 只 检验 素数 47 
Q1， 简 单 第 法 10.4 


， 打 印 1..P(n) 





本 节 集 中 讲述 了 性 能 监视 的 一 种 用 途 : 当 你 调 优 单 个 子 过程 或 函数 的 性 能 时 ， 性 能 监视 工具 
能 告诉 你 运行 时 间 都 花 在 了 哪里 。 


1.2 使 用 性 能 监视 工具 


对 于 小 程序 来 说 ， 性 能 监视 很 容易 实现 ， 因 此 性 能 监视 工具 是 可 有 可 无 的 ; 但 是 对 于 开发 大 
软件 来 说 ， 性 能 监视 工具 则 是 不 可 或 缺 的 。Brian Kerighan? 曾 经 使 用 行 计数 性 能 监视 工具 ， 研 究 
了 一 个 用 于 解释 Awk 语 言 程 序 的 4000 行 的 C 程 序 。 那 时 这 个 Awk 解 释 程 序 已 广泛 使 用 了 多 年 。 扫 描 
该 程序 75 页 长 的 程序 清单 就 会 发 现 ， 大 多 数 计数 都 是 成 百 上 干 的 ， 有些 甚 至 上 万 。 一 段 星 汲 的 初 
始 化 代码 ， 计 数 接近 百 万 。Kemighan 对 一 个 6 行 的 循环 做 了 几 处 修改 ， 程 序 速 度 就 提高 了 一 倍 。 
他 自己 可 能 永远 也 猜 不 出 程序 的 问题 源头 所 在 ， 但 是 性 能 监视 工具 引导 他 找到 了 。 


Kemighan 的 这 一 经 历 是 相当 典型 的 。 在 1.7 节 引用 的 论文 中 ，Don Knuth2 给 出 了 Fortran 程 序 
许多 方面 (包括 性 能 监视 ) 的 经 验 研究 。 该 论文 中 有 一 个 被 经 常 引 用 (而且 常常 是 被 错误 地 引用 )》 
的 命题 ;“ 一 个 程序 中 不 到 4% 的 语句 通常 占用 了 一 半 以 上 的 运行 时 间 。” 对 许多 语言 和 系统 的 大 
量 研究 表明 ， 对 于 不 处 理 MO 密 集 型 的 大 多 数 程序 ， 大 部 分 的 运行 时 间 花 在 了 很 小 一 部 分 代码 上 。 
这 种 模式 是 下 述 经 验 的 基础 : 


Knuth 在 论文 中 描述 了 用 行 计数 性 能 监视 工具 进行 自我 分 析 的 结果 。 性 能 监视 结果 
表明 ,一 半 的 运行 时 间 花 在 了 两 个 循环 上 。 结 果 花 了 不 到 一 小 时 修改 了 几 行 代码 ， 就 让 
这 个 性 能 监视 工具 的 速度 提高 了 一 售 ， 

第 14 章 描述 的 性 能 监视 结果 说 明 ， 一 个 1000 行 的 程序 把 80% 的 时 间 花 在 一 个 5 行 的 
子 程序 上 。 把 这 个 子 程序 改写 成 十 几 行 ， 就 让 程序 的 速度 提高 了 一 倍 。 


Brian Kemighan (1942 一 )， 著 名 计算 机 科学 家 ， 现 为 普林斯顿 大 学 教授 。 他 与 人 合作 创造 了 Awk 和 AMPL 编程 语言 ， 
对 Unix 和 C 语 言 的 设计 也 有 很 大 贡献 。 他 还 与 人 合 写 了 多 部 计算 机 名 著 ， 包 括 与 Ritchie 合 著 的 The C Programming 
Language 编者 注 

@ Don Knuth〈1938 一 )， 中 文 名 高 德 纳 ， 著 名 计算 机 科学 家 ， 斯 坦 福 大 学 荣 体 教授 。 因 对 算法 分 析 和 编程 语言 设计 领 
域 的 贡献 获 1974 年 图 灵 奖 。 他 是 名 著 《 计 算 机 程序 设计 艺术 》 的 作者 ， 设 计 了 TEX 排 版 系统 。 一 一 编者 注 





1984 年 贝尔 实验 室 的 Tom Szymanski 打 算 给 一 个 大 系统 提速 ， 结 果 却 使 该 系统 慢 了 
10%。 他 册 除 了 修改 的 部 分 ， 然 后 多 打开 了 一 些 性 能 监视 选项 以 查 明 失败 原因 。 他 发 现 
点 用 的 存储 空间 增加 到 了 原来 的 20 倍 ， 行 计数 显示 存储 空间 的 分 配 次 数 远 多 于 释放 次 
数 。 接 下 来 用 一 条 指令 就 纠正 了 错误 ， 正 确 的 实现 让 系统 加 速 了 一 倍 ， 

性 能 监视 表明 ， 操 作 系 统一 半 的 时 间 花 在 一 个 只 有 少数 几 条 指令 的 循环 上 。 改写 微 
代码 中 的 这 个 循环 带 来 一 个 量 级 的 提速 ， 但 是 系统 的 吞吐 量 不 变 : 性 能 组 已 经 优化 了 系 
统 的 空闲 循环 ! 


这 些 经 历 引 出 了 上 一 市 粗略 提 到 过 的 一 个 问题 ; 应 当 在 什么 输入 上 监视 程序 的 性 能 ? 查找 素 
数 的 程序 只 有 一 个 输入 n， 该 输入 强烈 影响 到 时 间 性 能 监视 ， 对 于 小 的 2， 输 入 /输出 占 大 头 ， 对 
于 大 的 am， 计 算 占 大 头 。 有 的 程序 的 性 能 监视 结果 对 输入 数据 非常 不 敏感 。 我 猜想 大 多 数 计算 薪 
水 的 程序 都 有 相当 一 致 的 性 能 监视 结果 ， 至 少 从 2 月 到 11 月 如 此 。 但 有 的 程序 的 性 能 监视 结果 会 
随 输入 不 同 有 巨大 变化 。 难 道 你 从 没有 察觉 到 ， 你 的 系统 被 调整 得 在 制造 商 的 基准 数据 上 运行 起 
来 风 驰 电 和 这， 而 处 理 起 你 的 重要 任务 时 却 慢 如 蜗牛 ? 仔细 挑选 你 的 输入 数据 吧 。 


性 能 监视 工具 对 于 性 能 之 外 的 任务 也 有 用 。 在 找 素数 的 练习 中 , 它 指 出 了 程序 P4 的 一 个 错误 。 
行 计数 在 估计 测试 履 盖 面 时 极 有 价值 ， 比 如 ， 如 果 出 现 零 ， 则 说 明 有 代码 未 测试 。DEC 公 司 的 
Dick Sites 这 样 描述 性 能 监视 的 其 他 用 途 :“(1) 在 两 层 微 存储 实现 中 ， 决 定 哪 些微 代码 放 到 芯片 
E; (2) 贝尔 北方 研究 院 (Bell Northern Research) 的 一 位 朋友 某 个 周末 在 带 有 多 重 异 步 任 务 的 实 
时 电话 交换 软件 系统 上 实现 了 语句 计数 。 通 过 查看 异常 计数 ， 他 发 现 了 现场 安装 的 代码 中 存在 6 
处 蚀 误 ， 所 有 错误 都 涉及 不 辐 任务 之 间 的 交互 。 其 中 一 处 错误 用 常规 调试 技术 无 法 成 功 追 踪 到 ， 
其 余 错误 还 没有 被 当 作 问题 (也 就 是 说 ,这些 错 误 症状 可 能 已 经 发 生 , 但 是 没有 人 能 够 将 其 归结 
为 具体 的 软件 错误 )。” 


1.3 专用 的 性 能 监视 工具 


到 目前 为 止 我 们 所 看 到 的 性 能 监视 工具 的 原理 ， 适 用 于 从 汇编 和 Fortran 直 到 Ada 这 样 的 程序 
设计 语言 ， 但 是 很 多 程序 员 现 在 使 用 更 强大 的 语言 。 如 何 监视 Lisp 或 APL 程 序 的 计算 性 能 ? 又 如 
何 监视 网 络 或 数据 库 语 言 程序 的 计算 性 能 ? | 

我 们 打算 用 UNIX 的 管道 (pipeline) 作为 更 有 趣 的 计算 模型 的 例子 。 管 道 是 一 系列 的 过 滤 程 


序 (filter): 当 数 据 流 经 每 个 过 滤 程 序 时 ， 对 数据 施加 变换 。 下 面 这 个 经 典 的 管道 按照 频率 递减 
顺序 打印 茶 文 件 中 使 用 最 多 的 25 个 单词 ? 。 














D 这 7 个 过 滤 程序 执行 下 列 任务 : (1) 连接 所 有 输入 文件 ; (2) 让 每 行 包含 一 个 单词 , 办 法 是 把 字母 表 以 外 的 符号 (-c ) 


翻 详 成 新 行 《ASCII 八 进 制 12)， 去 掉 重 复 的 空 行 (-s);， (3) 把 大 写 翻 译 成 小 写 ，(4) 排序 ， 以 便 把 相同 的 单词 归 
并 在 一 起 ; ($5) 把 连续 的 相同 单词 换 成 一 个 代表 单词 及 其 计数 (-c); (6) 按照 数值 (-n) 递减 (-r) 顺序 来 排 
序 ; (7) 经 过 一 个 流 编辑 器 ， 在 打印 25 行 后 退出 《q)。 本 书 10.5 节 用 图 片 描述 了 上 述 第 (4)、(5)、(@) 步 中 的 sort | 


uniq -c | sort 组 合 。 
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cat Sx* ! 

tr -cs A-Za-z '\012' | 
tr A-Z a-z | 

sort | 

uniq -c | 

sort -r -n | 

sed 25q 


当 用 这 个 管道 在 一 本 大 约 6 万 字 的 书 中 寻找 25 个 最 常见 的 单词 时 , 我 们 监视 这 个 管道 的 性 能 。 
输出 的 前 6 行 是 : 


3463 the 
1855 a 
1556 of 
1374 to 
1166 in 
1104 and 


下 面 是 对 VAX-11/750 上 计算 的 “管道 性 能 监视 ”; 


lines words chars 
10717 59701 342233 
57652 57651 304894 14.4u 2.3s 18r tr -cs A-Za-z \012 
57652. 57651 304894 11.9u 2.2s 15r tr A-Z a-z 

57652 57651 304894 104.9u 7.5s 123r sort 


times 


4731 9461 61830 24.5u 1.6s 27r uniq -c 
4731 9461 61830  27-0u 1.6s 31r sort -rn 
25 50 209 0.0u 0.2s Or sed 25q 


左边 几 列 说 明 每 个 阶段 的 数据 : 行 数 、 单 词 数 、 字 符 数 。 右 边 部 分 描述 了 数据 阶段 之 闻 的 过 
滤 程 序 ， 用 秒表 示 的 用 户 时 间 、 系 统 时 间 以 及 真实 时 间 ， 后 面 是 命令 本 身 。 


这 个 性 能 监视 结果 给 出 了 程序 员 感 兴趣 的 许多 信息 。 这 个 管道 是 快速 的 ， 处 理 150 页 的 书 只 
需 3.5 分 钟 。 第 一 侈 排序 花 了 这 个 管道 57% 的 运行 时 间 , 这 种 经 过 仔细 调 优 的 实用 程序 很 难 再 提速 
了 。 第 二 次 排序 只 花 了 这 个 管道 14% 的 时 间 ， 但 是 还 有 调 优 的 余地 *。 这 个 性 能 监视 结果 还 发 现 
了 管道 中 隐藏 的 一 处 小 错误 。UNIX 高 手 们 会 乐于 找 出 引入 空 行 的 地 方 。 


这 个 性 能 监视 结果 也 透露 了 文件 中 单词 的 信息 : 共有 57 651 个 单词 ， 但 只 有 4731 个 不 同 的 单 
词 。 在 第 一 个 翻译 程序 之 后 ， 每 个 单词 有 4.3 个 字母 。 输 出 表明 ， 最 常见 的 单词 是 “the”， 占 了 文 
件 的 6%。6 个 最 第 见 的 单词 占 了 文件 的 18%。 对 英语 中 最 常见 的 100 个 单词 做 专门 处 理 也 许 还 能 提 
高 速度 。 试 试看 从 这 些 计数 中 找 出 其 他 有 趣 的 表面 规律 。 


跟 许 多 UNIX 用 户 一 样 ， 我 过 去 也 用 手工 监视 管道 的 性 能 ， 利 用 单词 计数 (wc) 命令 来 统计 
@ 第 二 次 排序 花 了 第 一 次 排序 25% 的 时 间 ， 却 只 处 理 了 输入 行 数 的 8% 一 一 数值 〈-na) 标记 很 费时 间 。 当 我 们 在 单 


列 输 入 上 监视 这 个 管道 的 性 能 时 ， 第 二 次 排序 几乎 与 第 一 次 排序 花 一 样 的 时 间 。 这 个 性 能 监视 的 结果 对 输入 数据 
很 敏感 。 
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文件 ， 用 time 命 令 来 统计 进程 “管道 性 能 监视 工具 ”让 这 个 任务 自动 化 了 。 用 管道 和 一 些 输入 
文件 的 名 称 作为 输入 ， 产 生性 能 监视 结果 作为 输出 。2 个 小 时 和 50 行 代码 就 足以 建立 这 个 性 能 监 
WILA. POA PEAR ARI Pe eh 


1.4 开发 性 能 监视 工具 


开发 一 个 真正 的 性 能 监视 工具 是 件 困难 的 事情 。 Peter Weinberger? 开 发 了 C 行 计数 性 能 监视 工 
A, 我 们 前 面 看 到 的 输出 就 是 这 个 工具 产生 的 。 他 在 几 个 月 时 间 内 断断续续 于 了 好 几 周 才 完 成 这 
个 项 目 。 本 节 描 述 如 何 更 容易 地 开发 一 个 简化 版 本 。 


Dick Sites 声 称 他 的 朋友 “在 某 个 周末 实现 了 语句 计数 ”。 我 觉得 这 简直 难以 置信 ， 于 是 我 决 
定 要 试看 为 附录 A 描述 的 Awk 语 言 〈 这 种 语言 还 没有 性 能 监视 工具 〉 开 发 一 个 性 能 监视 工具 。 几 
小 时 后 ， 当 我 运行 程序 P6 的 Awk 版 本 时 ， 我 的 性 能 监视 工具 生成 了 如 下 输出 。 


程序 P6 及 性 能 监视 工具 生成 的 输出 


BEGIN { <<<1>>> 


n = 1000 
x[0] = 2; xc = 1 
print 2 
for (i = 3; i <= n; i++} { <<<998>>> 
if (prime(i)) { <<<167>>> 
print i 
} 
} 
exit 
} 
function prime(n, i) { <<<998>>> 
for (i=0; x{i]*xf[i]<=n; i++) { <<<280i>>> 
if (n % x[i] == 0) { <<<831>>> 
return 0 


} 
} 
{ <<<]167>>> } 
x[xc++] =n 
return 1 


} 

在 左 花 括号 后 尖 括号 内 的 数 显示 该 语句 块 被 执行 了 多 少 次 。 幸 运 的 是 ， 这 些 计数 与 C 行 计数 
器 产生 的 计数 一 样 。 

我 的 性 能 监视 工具 包含 两 个 5 行 的 Awk 程 序 。 第 一 个 程序 读 Awk 源 程序 并 且 写 -一 个 新 程序 ， 
其 中 在 每 个 语句 块 开始 的 地 方 给 不 同 的 计数 器 加 1， 而 在 执行 结束 时 ， 一 个 新 的 END 动作 ( 见 附 


RA) 把 所 有 计数 写 入 一 个 文件 。 当 这 样 得 出 的 程序 运行 时 ， 就 生成 一 个 计数 文件 。 第 二 个 程序 


QW Peter Weinberger， 著 名 计算 机 科学 家 ， 现 在 谷歌 任职 。 他 是 Awk 语 言 的 设计 者 之 一 〈Awk 中 的 w)， 曾 任 贝 尔 实 验 
室 计 算 机 科学 研究 部 主任 。 一 一 编者 注 
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读 出 这 些 计数 ， 把 这 些 计数 合并 到 源 文本 中 。 带 性 能 监视 的 程序 大 约 比 原来 的 程序 慢 2$%， 而 且 
并 不 是 所 有 的 Awk 程 序 都 能 正确 处 理 一 一 为 了 监视 几 个 程序 的 性 能 , 我 不 得 不 做 出 整 行 (one-line) 
的 修改 。 但 对 于 所 有 这 些 缺 点 来 说 ， 措 起 一 个 能 运行 的 性 能 监视 工具 ， 花 几 小 时 并 不 算 什 么 大 投 
Neo tEAWK Programming Laneuage 一 书 的 7.2 节 给 出 了 一 个 类 似 的 Awk 性 能 监视 工具 的 细节 ， 本 
书 2.6 节 引用 了 这 本 书 。 


人 们 实现 过 一 些 快 速 性 能 监视 工具 ， 但 鲜 见 报道 。 下 面 举 几 个 例子 。 


在 1983 年 8 月 的 BYTE 杂 志 上 ， Leas 和 Wintz 描 述 了 一 个 性 能 监视 工具 , 用 一 个 20 行 的 
6 800 汇 编 语 言 程 序 来 实现 。 

贝尔 实验 室 的 Howard Trickey 在 一 小 时 内 用 Lisp 实 现 了 函数 计数 ， 办 法 是 修改 
defun， 在 进入 每 个 函数 时 给 计数 器 加 1. 

1978 年 ，Rob Pike” 用 20 行 Fortran 程 序 实 现 了 一 个 时 间 性 能 监视 工具 。 在 CALL 
PROFIL (10) 之 后 ， 后 续 的 CPU 时 间 被 计 入 计数 器 10。 


在 这 些 系 统 和 许多 其 他 系统 上 ,在 一 晚上 写 出 一 个 性 能 监视 工具 是 可 能 的 。 在 你 第 一 次 使 用 
所 得 到 的 性 能 监视 工具 时 ， 这 个 工具 轻易 融 能 节省 超过 一 个 晚上 的 工作 量 。 


1.5 原理 


本 章 只 浮 光 拆 影 地 介绍 了 性 能 监视 。 我 介绍 了 最 基础 的 内 容 , A T RRE AEA RE 
如 硬件 监视 项 ) 和 其 他 显示 方式 〈 比 如 动 男 系 统 )。 本 章 所 要 传达 的 信息 同样 是 基本 的 。 

o 使 用 性 能 监视 工具 。 让 本 月 成 为 性 能 监视 工具 月 。 请 在 随后 几 周 内 至 少 监视 一 个 程序 片 
段 的 性 能 ， 并 且 茧 励 你 的 伙伴 们 也 这 样 做 。 记 住 ， 当 一 个 程序 员 屈 尊 来 帮助 一 个 小 程序 
EY > FRAN A ee eB ze AY 

e 开发 性 能 监视 工具 。 如 果 你 还 没有 方便 的 性 能 监视 工具 ， 束 上 自 造 一 个 吧 。 大 多 数 系统 都 
提供 基本 的 性 能 监视 操作 。20 世 纪 60 年 代 不 得 不 观察 控制 台灯 光 来 获得 信息 的 程序 员 ， 
现在 可 从 个 人 工作 站 的 图 形 窗 口 获得 同样 的 信息 。 一 个 小 程序 通常 足以 把 系统 的 命令 特 


性 包装 成 方便 的 工具 。 
16 ”习题 
1. 假设 数组 XT1..1000] 中 散布 者 随机 实数 。 下 面 这 个 例 程 计算 最 小 值 和 最 大 值 : 
Max := Min := X[1) 
for I := 2 to 1000 do 
if X[I] > Max then Max := X[T] 
if X[I] < Min then Min := X[TI] 


@ Rob Pike (1956 一 )， 著 名 计算 机 科学 家 ， 现 任职 于 谷歌 。 他 参与 了 Unix 操 作 系 统 的 开发 ， 并 领导 了 分 布 式 操作 系 
Plan 9 和 Infermo 以 及 Limbo 语 言 的 设计 。 他 与 Kernighan 合 扎 了 名 著 《 程 序 设计 实战 》。 一 一 编者 注 
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B. C. Dull 先 生 注意 到 ， 如 果 一 个 元 素 是 新 的 最 大 值 ， 则 这 个 元 素 不 可 能 是 最 小 值 。 因 而 他 把 
两 次 比较 写成 


1 X[I] > Max then Max := XI[I] 
else if X[I] < Min then Min := X[I] 


这 样 平均 起 来 将 节省 多 少 次 比较 ? 先 猜 猜 答案 ， 再 通过 实现 和 监视 程序 性 能 来 找 出 答案 。 你 
猜 得 怎么 样 ? 


.下列 问题 与 计算 素数 有 关 。 


a. 程序 P1 到 P6 把 运行 时 间 缩 短 了 两 个 数量 级 。 你 能 进一步 提高 写 出 比 性 能 吗 ? 

b. 实现 简单 的 埃 氏 筛 法 (Sieve of Eratosthenes) 来 计算 所 有 小 于 zx 的 素数 。 这 个 程序 的 主要 数 
据 结 构 是 一 个 za 比特 的 数组 ， 初 始 值 都 为 真 。 每 发 现 一 个 素数 时 ， 数 组 中 所 有 这 个 素数 的 倍 
数 束 设置 为 假 。 下 一 个 素数 就 是 数组 中 下 一 个 为 真 的 比特 。 

c 上 述 第 法 的 运行 时 间作 为 的 函数 是 什么 样子 的 ? 找 出 一 个 运行 时 间 为 O(n) 的 算法 。 

d. 给 出 一 个 非常 大 的 整数 〈 比 如 说 几 百 比特 长 )， 你 如 何 检验 其 是 否 为 素数 ? 


:一 种 简单 的 语句 计 数 性 能 监视 工具 为 每 条 语句 设置 一 个 计数 器 。 描 述 一 下 如 何 使 用 更 少 的 计 


数 右 来 减少 内 存 和 运行 时 间 。( 我 曾经 用 过 Pascal 系 统 监 视 一 个 程序 的 性 能 ， 结 果 把 程序 变 慢 
为 原来 的 100; 本 章 描述 的 行 计数 性 能 监视 工具 采用 了 本 题 的 技巧 ， 只 让 程序 变 慢 几 个 百 分 
Fo) 


. 一 种 简单 的 过 程 时 间 性 能 监视 工具 这 样 估计 每 个 过 程 所 花 的 时 间 ， 在 有 规律 的 间隔 下 观察 程 


序 计 数 右 (在 我 的 系统 上 是 每 秒 60 次 )。 这 个 信息 给 出 了 程序 文本 每 个 部 分 所 花 的 时 间 ， 但 是 
没有 给 出 哪个 过 程 最 费时 间 。 有 些 性 能 监视 工具 给 出 了 每 个 函数 及 其 动态 调用 的 子 函数 所 花 
的 时 间 。 说 明 如 何 从 运行 时 栈 中 搜集 更 多 信息 ， 以 区 分 出 调用 函数 和 被 调用 函数 所 花 的 时 间 。 
给 定 这 些 数据 后 ， 你 如 何以 有 用 的 形式 来 显示 这 些 数据 ? | 


. 准确 的 数 信 有 助 于 解释 程序 在 单个 数据 集 上 的 性 能 监视 结果 。 但 是 当 有 很 多 数据 时 ， 长 长 的 


一 串 数 字 则 可 能 掩盖 数值 中 的 信息 。 你 如 何 显示 程序 或 管道 在 100 个 不 同 输入 上 的 性 能 监视 结 
条 ?特别 考虑 一 下 数据 的 图 形 显示 。 


1.4 节 中 的 程序 P6 是 个 正确 的 程序 , 其 正确 性 却 难以 证 明 。 问 题 出 在 哪里 ? 如何 解决 这 个 问题 ? 


T 深入 阅读 


Don Knuth} “Empirical Study of Fortran Programs”  #€4£ 19714F Software——Practice and 


Experience 第 一 人 卷 上 《第 10$ 一 133 页 )。 关 于 “动态 统计 ” 的 第 3 节 讨论 了 行 计数 和 过 程 时 间 计 数 ， 
以 及 用 这 两 种 计数 搜集 的 统计 数据 。 第 4 节 调 优 了 17 个 关键 的 内 循环 , 获得 了 从 1.5~13.1 倍 的 加 速 。 
在 过 去 的 十 几 年 中 ， 我 每 年 至 少 要 读 -- 遍 这 篇 经 典 论文 ， 越 读 越 觉得 好 ， 因 此 我 强烈 推荐 这 篇 
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关联 数组 


人 类 学 家 说 ,语言 深刻 地 影响 了 世界 观 。 一 般 把 这 个 观察 结果 称 为 “Whorf 假 说 ””， 也 经 常 


把 它 总 结 为 “语言 塑造 了 人 的 思想 ”。 
跟 大 多 数 程序 员 一 样 ， 我 使 用 的 Algol 系 列 的 语言 塑造 了 我 的 计算 思维 。 对 于 像 我 这 样 的 程 


” 序 员 来 说 ，PL/1、C 和 Pascal 看 起 来 都 很 相似 ， 我 们 不 难 把 这 样 的 代码 翻译 成 COBOL 或 Foraan 的 


代码 。 用 这 些 语 言 能 轻易 地 表达 我 们 旧 的 、 习 以 为 常 常 的 思维 模式 。 


男人 外 一 些 语言 则 挑战 了 我 们 对 于 计算 的 看 法 。 我 们 感到 惊奇 的 是 ，Lisp 用 户 们 用 S 表 达 式 和 
递归 来 神奇 地 工作 ，APL 迷 们 用 一 组 长 向 量 的 外 积 来 为 世界 建 模 ，Snobol 程 序 员 把 任何 问题 都 变 


成 一 个 很 大 的 字符 串 。 我 们 这 些 Algol 系 列 的 程序 员 可 能 会 发 现 ， 研究 这 些 “ 异 族 文化 ” 是 痛苦 


的 ， 但 是 这 种 体验 一 般 会 增长 我 们 的 见识 。 


本 章 讨 论 Algol 传 统 之 外 的 一 mia mHE: 关联 数组 O E ATA MA — 


oo 


数组 与 Algol 相 似 到 可 以 很 快 被 理解 的 程度 ， 又 新 到 足以 挑战 我 们 思维 习惯 的 程度 。 


本 章 将 讨论 Awk 语 言 提供 的 关联 数组 。 虽然 Awk 的 大 多 数 成 分 都 来 自 Algol 传 统 , 但 是 关联 数 
组 和 其 他 儿 个 特性 还 是 值得 研究 的 ，。 下 面 这 一 节 介 绍 Awk 的 关联 数组 ， 后 续 几 节 描 述 两 个 重要 的 
程序 ， 这 两 个 程序 用 大 多 数 Algol 系 列 的 语言 来 写 都 是 很 麻烦 的 ， 却 可 以 用 Awk 优 雅 地 表达 出 来 。 


2.1 Awk 中 的 天 联 数组 


附录 A 中 概述 了 Awk 语 言 。 我 们 将 通过 研究 一 个 程序 来 简要 复习 一 下 这 个 语言 ， 这 个 程序 找 
出 姓名 文件 中 可 疑 的 项 。 这 个 程序 的 每 一 行 都 是 一 个 “模式 -动作 ”对 。 对 于 每 个 输入 行 ， 如 果 
这 个 输入 行 与 左 侧 的 一 个 模式 匹配 ， 则 执行 右 侧 括号 中 包含 的 动作 。 这 个 完整 的 Awk 程 序 只 包含 
3 行 代码 : 


O 由 美国 语言 学 家 Benjamin Whorf (1897—1941) 提出 ， 也 称 Sapir-Whorf 假 说 ， 认 为 语言 本 身 会 影响 人 的 概念 形成 ， 
从 而 影响 人 的 思维 模式 和 世界 观 ， 进 而 影响 社会 文化 。 一 一 编者 注 


15. 
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length({$1} > 10 { e++; print "long name in line", NR} 

NF != 1 { e++ print "bad name count in line", NR} 

END { if (e > 0) print "total errors: ", e } 

第 一 个 模式 捕捉 长 的 名 字 。 如 果 第 一 个 字段 〈 名 为 $S1) 超过 10 个 字符 ， 则 相应 的 行为 是 对 e 
1, SER ABS ewe (记录 个 数 或 行 数 ) 打印 一 条 警告 信息 。 变 量 e 统 计 错 误 个 数 ，Awk 通 常 
将 所 有 变量 初始 化 为 零 。 第 二 个 “模式 -动作 ”对 捕捉 那些 没有 恰好 包含 一 个 名 字 的 行 〈 内 建 变 
量 NF 统 计 和 输入 行 中 字段 的 数量 )。 第 三 个 动作 在 输入 的 结尾 执行 ， 用 于 打印 错误 的 个 数 。 

关联 数组 并 不 在 Awk 内 核 之 中 ， 许 多 Awk 程 序 并 不 使 用 它 。 但 这 些 数组 很 巧妙 地 集成 到 了 语 
ac: 如 同 其 他 变量 一 样 ， 数 组 不 用 被 声明 ， 它 在 第 一 次 使 用 时 自动 初始 化 。 


现在 转向 有 关 名 字 的 第 二 个 问题 给 定 包含 n 个 名 字 的 文件 ， 生 成 全 部 妈 个 名 字 对 。 我 知道 
一 些 人 曾 用 这 样 的 程序 为 他 们 的 孩子 选取 名 和 中 名 。 如 果 输 入 文件 包含 名 字 Bily、Bob 和 Willy， 
那么 输出 将 引导 父母 为 孩子 选择 一 个 更 悦耳 的 名 字 ， 比 如 Billy Bob 而 不 是 Billy Willy. 


这 个 程序 使 用 变量 wn 计数 当前 已 看 到 的 名 字 个 数 。 和 所 有 Awk 变 量 一 样 ， 其 初始 值 为 零 。 第 
一 个 语句 在 输入 的 每 一 行 上 都 执行 ， 注 意 n 在 使 用 之 前 加 1。 


{ name[++n] = $1 } 
END { for (i = 1; i <= n; i++} 
for {j= 1; j <= n; j++) 


print name[i], name[j] 
} 


输入 文件 被 读 取 后 ， 名 字 存 储 在 name[1] 到 name[n] 中 。END 动 作用 两 层 for 循 环 打 印 名字 对 。 
注意 ， 尽 管 该 程序 只 使 用 数值 下 标 ?， 但 却 不 必 事 先 声 明 name 数 组 的 大 小 。 


程序 产生 许多 输出 ,特别 是 在 输入 文件 中 多 次 出 现 某 些 名 字 的 情况 下 。 因 此 ， 下 一 个 程序 使 
用 一 个 字符 串 索 引 的 数组 来 清理 输入 文件 。 完 整 的 程序 如 下 : 


{ if ( count[$iJ++ == 0 ) print $1 } 


一 个 名 字 第 一 次 读 取 时 它 的 count 值 为 零 ， 于 是 它 被 输出 ， 并 增加 相应 的 数组 元 素 。 该 名 字 的 后 
续 出 现 被 读 到 时 ， 其 count 值 变 大 但 不 做 任何 额外 动作 。 程 序 结束 后 ，count 的 下 标 恰好 代表 了 名 
字 的 集合 。 


这 一 事实 让 我 们 可 以 将 之 前 的 两 个 程序 合 为 一 个 : 给 定 一 个 名 字 文 件 〈 可 能 有 重复 的 )， 下 
面 的 程序 打印 所 有 的 名 字 对 。 


{ name[$1] = 1 } 
END { for (i in name) 
for (j in name) 
print i, j 
} 


Q Snobol 中 区 分 数组 和 表 ， 数 组 用 数值 作 下 标 ， 而 表 用 字符 串 作 下 标 。Awk 只 有 一 种 数组 ， 数 值 下 标 在 存储 之 前 先 
转换 成 字符 串 。 下 标 可 能 有 多 重 索引 一 一 Awk 把 多 重 索 引 连接 成 一 个 单 键 ， 索 引 之 间 用 一 个 特殊 字符 分 辽 。 
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关联 数组 name 代表 名 字 集 合 ， 其 中 所 有 值 都 是 1。 信 息 包 含 在 数组 索引 中 ， 可 以 用 下 述 形式 
的 循环 来 检索 : 


for ( iin name ) statement 


该 循环 在 所 有 i 值 上 重复 执行 statement。 作 为 name 的 下 标 ，i 愉 好 代表 输入 文件 里 的 名 字 。 该 循 
环 以 任意 的 顺序 列举 所 有 的 名 学 ， 名 凶 通 常 是 不 排序 的 。 CAwk 的 确 为 UNIX 系 统 排序 提供 了 一 个 
方便 的 接口 ， 但 这 已 经 超出 了 本 章 的 范围 。) 


下 一 个 程序 将 应 用 从 托儿所 转移 到 了 厨房 。 购 物 清音 


chips 3 
dip 2 
chips 1 
cola 5 
dip 1 
其 实 应 按 项 合并 得 到 更 简便 的 形式 ; 
dip 3 
cola 5 
chips 4 
下 面 的 程序 完成 这 一 任务 : 
{ count[$1] = count[$1] + $2 } 


END { for (i in count) print i, count[i] } 


1.3 市 给 出 了 一 个 程序 , 统计 文档 中 每 个 单词 出 现 的 次 数 。 下 面 的 程序 用 Awk 中 的 字段 非常 简 
单 地 定义 单词 为 用 空白 分 隔 的 字符 序列 。 因 此 ， TIF R "Words", "words" Ñi "words; "是 3 个 不 
同 的 单词 。 

{ for (1 = 1; i <= NF; i++) count[$i]++ } 

END { for (i in count) print count[i], i } 
这 个 程序 在 VAX-11/750 上 用 了 40 秒 的 CPU 时 间 来 处 理 本 章 的 一 份 草稿 中 的 4500 个 单词 。 出 现 频率 
最 高 的 3 个 单词 是 “the”【〔 出 现 213 次 )、“to” (110%) Al “of” (104 次 )。11.1 节 将 回 到 有 关 
这 个 程序 运行 时 间 的 问题 上 来 。 


下 面 这 个 简单 的 拼写 检查 器 报告 输入 文件 中 所 有 不 在 字典 文 件 qict 中 的 单词 。 预 处 理 使 用 
Awk 的 get1line 命 令 将 字典 读 入 到 数组 goodwords 中 : 


BEGIN { while (getline <"dict") gocdwords[$1] = 1 } 
{ for (1 = 1; i <= NF; i++) 
if (!($1 in goodwords) ) 


badwords[$i] = 1 
} 
END { for (1 in badwords) print i } 
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主要 的 处 理 过程 收 集 badwords， 后 处 理 过 程 打印 违例 的 词 。 测 试 

if { $i in goodwords ) ... 
当 第 个 字段 是 数组 goodworas 的 下 标 时 为 真 ， 而 非 运 算 符 ! 将 这 一 条 件 取 反 。 不 熟悉 Awk 的 程序 员 
或 许 用 过 更 简单 的 条 件 测试 

if ( goodwords[$i] == 0) ... 
这 一 条 件 测试 的 答案 是 一 样 的 ， 但 却 会 产生 不 必要 的 副作用 
的 零 值 元 素 。 过 量 的 元 素 会 明显 增加 程序 的 时 间 和 空间 开销 。 

有 这 些小 例子 作为 背景 ， 我 们 将 继续 看 两 个 大 一 点 的 程序 。 好 在 我 们 不 需要 研究 太 大 的 
程序 。 


2.2 有 穷 状 态 机 模拟 器 


有 穷 状态 机 FSM) 是 计算 的 一 种 优雅 的 数学 模型 和 有 用 的 实践 工具 ， 它 在 程序 设计 语言 
词法 分 析 、 通 信 协 议 以 及 简单 硬件 设备 等 许多 应 用 领域 都 有 广泛 的 用 途 。Wulf、Shaw、Hilfinger 
和 Flon 在 他 们 合 著 的 Fundamental Structures of Computer Science®—+5 (Addison-Wesley H hR} 
1981 年 出 版 ) 的 1.1 节 讨论 了 这 一 主题 。 


作为 例子 ， 他 们 考虑 这 样 一 个 简单 的 任务 一 一 “ 扫 制 ”比特 流 中 所 有 新 出 现 的 1: 





同 goodwords 数 组 中 插入 一 个 新 


Input: 011010111 
Output: 001000011 


紧 跟 在 0 后 面 的 1 被 改 成 0， 输 入 流 中 的 所 有 其 他 比特 位 不 变 。 


下 面 的 两 状态 自动 机 在 其 状态 中 对 最 后 一 个 输入 比特 进行 编码 : “LIZ” 表 示 “Last Input 
Zero”， 而 “LIO” 表 示 “Last Input One” 。 


0 一 0 1 一 1 


指 癌 LIZ 的 横 回 箭头 表明 这 是 初始 状态 。 从 LIZ 到 LIO 的 张 线 的 意思 是 ， 如 果 自 动机 当前 处 于 状态 
LIZ 且 和 输入 是 一 个 1， 则 输出 一 个 0 并 进入 状态 LIO。 


执行 FSM 的 程序 使 用 两 个 主要 数据 结构 。 如 果 FSM 包 含 弧 线 


O 该 书 中 译 版 曾 于 1987 年 由 科学 出 版 社 出 版 ， 中 文书 名 《计算 机 科学 的 基本 结构 》。 一 一 编者 注 
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(as) 给 入 系统 一 输出 系统 © 


那么 下 面 的 等 式 成 江 : 
trans[Statel, InSym] == State2 
out[Statel, InSym] == OutSym 


名 字 trans 表 示 状 态 转换 ，out 表 示 输 出 符号 。 
上 面 拷 述 的 自动 机 和 输入 编码 如 下 : 


LIZ 0 LIZ 
LIZ 1 LIO 
LIO 0 LIZ 
LIO 1 LIO 
start LIZ 
0 


POO 


1 
1 
0 


前 4 行 表示 FSM 中 的 4 条 边 。 第 一 行 说 ,如果 目 动机 当前 状态 为 LIZ 且 输入 为 0， 那 么 下 一 个 状态 是 
LIZ 并 输出 0。 第 五 行 确定 初始 状态 ， 之 后 的 行 是 输入 数据 。 


下 面 的 程序 按 上 面 搞 述 的 形式 执行 RSM。 


run == 1 { print out[s, $1]; s = trans[s, $1] } 
run == 0 { if ($1 == "Start") { run = 1; s = $2 } 
else { trans[$1, $2] = $3; out{$S1, $2] = $4 } 


该 程序 有 两 个 主要 的 模式 ,起 初 , 变量 run 值 为 零 , 在 这 个 模式 下 ,将 自动 机 的 转换 添加 到 数组 irans 
和 out 中 。 当 输入 的 菜 一 行 的 第 一 个 字段 是 字符 串 "start" 时 , 程序 将 相应 的 初始 状态 存放 到 s 中 ， 
然后 切换 到 运行 模式 。 然 后 每 步 的 执行 都 将 产生 输出 并 改变 状态 ,每 步 转换 后 的 状态 可 以 看 成 是 
当前 输入 《$1) 和 当前 状态 (s) 的 函数 。 

这 个 微型 的 程序 有 很 多 缺点 。 例如 , 对 于 未 定义 的 转换 , 它 做 出 的 反应 将 是 灾难 性 的 。 事实 上 ， 
这 个 程序 顶 多 适合 个 人 使 用 。 为 一 方面 ， 它 为 创建 更 健壮 的 程序 提供 了 便利 的 基础 ， 见 习题 2。 


2.3 ”拓扑 排序 
拓扑 排序 算法 的 输入 是 一 个 有 向 无 环 图 ， 例 如 ， 
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如 果 图 中 包含 从 4 到 8B 的 边 ， 那 么 4 就 是 8 的 祖先 而 8 是 4 的 后 代 。 算 法 必须 对 图 中 结 点 排序 以 
使 得 所 有 祖先 出 现在 它们 的 后 代 之 前 ， 下 图 是 许多 可 能 排序 中 的 一 种 。 











算法 还 必须 能 够 处 理 输 入 图 中 包含 回路 因此 无 法 完成 排序 的 可 能 情况 。 


这 样 的 算法 可 以 应 用 于 绘制 物体 的 三 维 场景 。 如 果 物 体 B 在 视图 中 处 于 物体 4 的 前 面 ， 那 么 4 
就 在 8 之 前 ， 因 为 4 必须 在 3 之 前 完成 绘制 。 下 图 左边 由 4 个 矩形 构成 的 场景 能 够 导出 右边 的 偏 序 。 








图 2-5 中 有 两 种 对 顶点 的 有 效 排序 ， 即 4 8 CD 和 4 C B D。 每 种 排序 都 恰当 地 给 出 了 物体 的 
覆盖 图 。 拓 扑 排序 的 其 他 应 用 包括 对 技术 文档 进行 布局 《术语 在 使 用 之 前 必须 先 定义 ) 以 及 处 理 
层次 化 VLSI 设计 《算法 在 处 理 一 个 部 件 之 前 必须 先 处 理 其 组 成 部 分 )。 继 续 阅 读 之 前 ， 请 花 一 分 
钟 思考 你 将 如 何 编写 对 有 癌 图 进行 拓扑 排序 的 程序 。 

我 们 将 研究 一 个 拓扑 排序 算法 ， 该 算法 引 自 Knuth 的 《计算 机 程序 设计 艺术 ， 卷 1: 基本 算法 》9 
一 书 的 2.2.3 节 。 该 算法 的 循环 步骤 如 下 : 选 出 一 个 没有 祖先 的 结 点 7， 将 7 写 到 输出 文件 中 ， 然 后 
从 图 中 删除 从 7 出 发 的 所 有 边 。 下 图 显示 了 这 个 算法 如 何 应 用 在 之 前 的 四 结 点 场景 图 上 。 算 法 的 
各 阶段 从 左 同 右 进行 ， 每 一 阶段 选 出 的 结 扣 7 都 夯 了 圈 。 


~ NS fg 


O 该 书 第 3 版 英文 影印 版 已 由 人 民 邮 电 出 版 社 于 2010 年 出 版 ， 中 译 版 也 即将 由 人 民 邮 电 出 版 社 出 版 。 一 一 编者 注 
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排序 结果 是 4 BCD. 


这 个 算法 的 一 种 低 效 的 实现 在 每 一 步 都 要 扫描 整个 图 以 找到 没有 祖先 的 结 点 。 现 在 来 研究 一 
个 更 简单 也 更 高 效 的 算法 。 对 每 个 结 点 ， 新 算法 都 存储 它 的 祖先 数量 以 及 后 代 结 点 集合 。 比 如 ， 
上 面 所 男 的 四 结 点 图 如 下 表示 : 





算法 的 循环 步骤 每 次 选 出 一 个 祖先 结 点 数 为 零 的 结 点 ,把 它 写 到 输出 文件 中 ， 其 所 有 后 代 结 点 的 
但 先 数量 全 部 减少 1。 然 而 ， 算 法 必须 仔细 记 住 不 同 顶 点 其 祖先 计数 变 为 零 的 先后 顺序 ， 这 里 使 
用 了 一 个 结 点 队列 。( 如 果 在 所 有 结 点 的 祖先 计数 变 为 零 之 前 队列 为 空 ， 那 么 程序 报告 图 中 存在 
回路 。) 


下 面 的 伪 代 码 假设 输入 给 程序 的 图 是 由 一 系列 《祖先 ， 后 代 ) 对 表示 的 ， 每 行 一 对 。 


as each (pred, succ) pair is read 
increment pred count of succe 
append succ to successors of pred 
at the end of the input file 
initialize queue to empty 
for each node i 
if pred count of i is zero then append i to queve 
while queue isn't empty do 
delete t from front of queue; print t 
for each successor s of t 
decrement pred count of s 
if that goes to zero then append x to queue 
if some nodes were not output then report a cycle 


算法 的 运行 时 间 与 图 中 的 边 数 成 比例 ， 只 比 最 理想 的 情况 多 出 一 个 常数 因子 。( 每 条 边 处 理 
两 次 : 一 次 是 读 ， 一 次 是 从 队列 中 将 其 删除 。) 


Awk 程 序 使 用 一 个 索引 范围 是 1..z 的 数组 来 实现 队列 。 整 型 变量 q1o 是 队列 首 元 素 的 索引 ，c 
征 尾 元 素 的 索引 。 后 代 集 合 由 两 个 数组 实现 。 如 果 4 有 后 代 B、C、 刀 ， 那 么 下 面 的 关系 成 立 

Sucect[(“A"] == 3 

succlist[(’A", "1" 

succlist["A", m2" 

succlist["A", "3" 

这 个 Awk 程 序 的 输入 是 一 个 祖先 -后 代 对 文件 ， 其 输出 是 排序 好 的 结 点 列表 或 关于 这 样 的 列 
表 不 存在 的 警告 。 


et 
bo od 


ft ot H 
vo 
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{ ++predct [$2] # record nodes in predct, 
predct[$1] = predct[$1] # even those with no preds 
succlist[($l1, ++succent[$1]] = $2 


END { qlo = 1 
for (i in predet) {f{ 
n++; if (predct[i] == 0) q[++ghi] = i 
} 
while (qlo <= ghi) { 
t = q[qlo++]; print t 


for (1 = 1; i <= sgucccnt[t]; i++) { 
s = succlist[t, i] 
if (--predct{[s] == 0) q[++qhi] = s 
} 
} 
if (qhi != n} print "tsort error: cycle in input" 


} 
程序 第 二 行 保 证 所 有 结 点 都 作为 predct 的 索引 出 现 ， 即 便 没 有 祖先 的 结 点 也 一 样 。 


本 程序 的 关联 数组 表示 了 几 种 不 同 的 抽象 数据 类 型 : 一 个 结 点 名 字 的 符号 表 、 一 个 记录 数组 、 
一 个 二 维 的 后 代 集合 序 列 以 及 一 个 结 点 队列 。 本 程序 小 巧 、 便 于 理解 ,但 在 较 大 的 程序 中 无 法 清 
楚 分 辨 不 同 的 抽象 数据 类 型 就 会 降低 程序 可 读 性 。 


2.4 M 


Awk 可 以 使 程序 员 事 半 功 倍 。 RIIE aya BI BRE oR EA eS RS, AEE 
怕 会 多 出 -个 数量 级 。 规 模 的 减 小 归功 于 Awk 的 儿 个 特性 ， 输入 行 之 上 的 隐 式 循环 、 自 动 分 隔 成 
字段 、 变 量 的 初始 化 和 转换 ， 以 及 关联 数组 。 


关联 数组 是 Awk 将 字符 串 和 数值 这 样 的 基本 数据 类 型 结合 起 来 的 唯一 机 制 ， 别 无 他 法 。 幸 而 
关联 数组 可 以 很 自然 地 表示 许多 数据 结构 。 

o 数组 。 一 维 、 多 维和 稀 朴 数组 实现 起 来 都 很 容易 。 

e 顺序 结构 。 队 列 和 栈 是 由 关联 数组 加 一 个 或 两 个 索引 产生 的 。 

o 符号 表 。 符 号 表 提 供 了 从 名 字 到 值 的 一 个 映射 : symtab[name] = value。 如 果 所 有 名 字 有 同 
样 的 值 ， 那 么 这 个 数组 就 表示 一 个 集合 。 

e 图 。 有 穷 状态 机 和 拓扑 排序 都 对 有 向 图 进行 处 理 。FSM 程 序 使 用 图 的 矩阵 表示 ， 而 拓扑 
排序 使 用 边 - 序 列表 示 。 


除了 教学 , Awk 及 其 关联 数组 还 有 什么 实际 价值 吗 ? Awk 程 序 很 小 , 这 并 不 总 是 优点 ( 像 APL 
单行 程序 一 样 ，Awk 程 序 会 使 人 费解 ， 令 人 不 胜 其 烦 》， 但 10 行 代码 几乎 总 是 要 胜 过 100 行 代码 。 
不 素 的 是 ，Awk 代 码 运行 起 来 似乎 很 慢 。 符 号 表 的 效率 相对 比较 高 ， 但 以 整数 为 索引 的 数组 却 要 
比 传统 实现 慢 上 几 个 数量 级 。 在 什么 情况 下 小 而 慢 的 程序 才 有 用 呢 ? 

e 与 开发 成 本 相 比 , 许多 程序 的 运行 时 成 本 是 可 以 忽略 的 。Awk 拓 扑 排序 程序 对 某 些 任务 来 
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说 已 经 接近 产品 质量 了 ， 但 在 出 现 错误 时 应 该 更 健壮 一 些 。 

。 简单 的 程序 可 以 得 到 有 用 的 原型 。 先 让 用 户 尝 试 一 个 小 规模 程序 。 如 果 他 们 喜欢 ， 再 创 
建 一 个 工业 级 的 版 本 。 | | 

。 我 用 Awk 作 为 小 的 子 程序 的 测试 环境 ， 我 们 下 一 章 再 回 到 这 个 话题 。 


2.5 习题 


l. 


选择 本 章 的 一 个 Awk 程 序 , 然后 用 另外 一 种 语言 重新 编写 。 两 个 程序 在 源 代码 规模 和 运行 时 效 
率 上 相 比 如 何 ? 


. 用 各 种 方式 加 强 FSM 模 拟 器 。 考 虑 加 入 错误 〈 坏 状态 、 坏 输入 等 ) 检查 、 默 认 转 换 以 及 字符 


类 《例如 整数 和 字母 )。 编 写 程序 对 一 个 简单 的 程序 设计 语言 进行 词法 分 析 。 


. 本 章 的 拓扑 排序 程序 在 输入 图 有 回路 的 情况 下 给 出 报告 。 修 改 这 个 程序 以 打印 回路 ， 让 它 在 


出 现 错 误 时 更 健壮 一 些 。 


. 说 明 由 三 维 场景 导出 的 图 可 能 包含 回路 。 给 出 可 以 保证 无 回路 的 限制 条 件 。 
. 为 下 面 的 任务 设计 程序 。 怎 样 使 用 关联 数组 来 简化 这 些 程序 ? 


a. 树 。 编 写 程 序 创建 并 过 历 二 又 树 。 

b. 图 。 用 深度 优先 搜索 重 写 拓扑 排序 程序 。 给 定 一 个 有 向 图 和 一 个 结 点 zx， 返回 所 有 从 x 可 以 
到 达 的 结 皮 。 给 定 一 个 带 权 图 和 两 个 结 占 x、y， 返 回 从 x 到 y 的 最 短路 径 。 

. 文档。 使 用 一 个 简单 的 字典 把 一 种 自然 语言 翻译 成 男 外 一 种 自然 语言 (类 -法 字典 中 的 一 行 
可 能 包含 两 个 单词 “hello bonjour”)。 为 课本 或 程序 文件 准备 交叉 引用 表 ， 每 个 单词 的 所 
有 引用 都 要 用 行 号 列 出 。Awk 程 序 员 可 以 试 着 使 用 输入 字段 分 隔 符 和 替换 命令 来 完成 对 单 
词 的 更 现实 的 定义 。 

.随机 句子 生成 。 本 程序 的 输入 是 一 个 如 下 的 上 下 文 无 关 文 法 : 

S 一 NP VP 

NP > ALNIN 

N > John| Mary 
AL> A|AAL 

A > Big | Little | Tiny 
VP > VAvL 

V > runs | walks 
AvL > Av|AvL Av 
Av > quickly | slowly 
程序 应 当 生 成 随机 的 句子 ， 如 “John walks quickly” EÈ “Big Little Mary runs slowly quickly 
slowly” o 


e. 过 滤器 。 第 二 个 “名 字 ” 程 序 从 文件 里 过 滤 出 重复 的 单词 ， 而 拼写 检查 程序 则 过 滤 出 字典 


Q 


em 


中 的 单词 。 编 写 其 他 的 单词 过 滤器 ， 比 如 删除 不 在 “批准 列表 ”中 的 单词 ， 按 原来 的 顺序 


留 下 批准 的 单词 。( 当 输入 排 好 序 时 这 些 任 务 更 容易 。) 
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f 棋盘 游戏 。 实 现 Conway 的 “生存 游戏 ”。 你 可 能 会 用 到 Awk 的 delete x[il 语 句 来 删除 旧 
的 棋盘 位 置 。 


6. 描述 关联 数组 的 多 种 实现 ， 并 分 析 每 个 元 素 的 访问 时 间 和 存储 成 本 。 
2.6 深入 阅读 


Aho、Kermnighan 和 Weinberger 在 1977 年 设计 并 创建 了 最 初 的 Awk 语 言 。( 无 论 如 何 ， 都 不 要 重 
新 排列 他 们 姓氏 的 首 字母 1 ) 在 Addison-Wesley 出 版 社 1988 年 出 版 的 4WK Programming Language 
一 书 中 ， 他 们 详细 讲述 了 该 语言 及 其 高 明 的 用 法 。 该 书 第 7 章 说 明 Awk 如 何 成 为 实验 算法 的 一 个 
有 用 工具 ， 我 们 将 在 本 书 的 第 3 章 、 第 13 章 和 第 14 章 以 这 样 的 目的 来 使 用 Awk; 该 书 第 6 章 把 Awk 
作为 一 个 小 语言 处 理 器 来 讲述 ， 我 们 将 在 本 书 第 9 章 这 样 使 用 Awk。 该 书 其 他 章节 提供 了 一 个 参 
考 指南 并 将 Awk 应 用 于 数据 处 理 、 数 据 库 和 文字 处 理 中 。 这 本 Awk 的 书 是 对 一 门 有 趣 而 实用 的 语 
言 的 出 色 导 论 。 


© Awk 语 言 的 名 称 来 源 于 三 个 开发 者 姓氏 的 首 字 母 ， 若 按 字 和 母 顺序 排列 ， 就 应 当 是 Akw， 但 是 Awk 更 像 一 个 英文 单 


i, MAMA “HAW” (Awkward) 该 谐 意味 在 里 面 。 一 一 译 者 注 





程序 员 的 性 悔 


大 多 数 程序 员 都 会 花 许 多 时 间 去 测试 和 调试 , 不 过 在 他 们 写 程序 的 时 候 ， 却 很 少 注意 这 些 问 
题 。 本 章 将 为 你 讲述 我 如 何 测试 和 调试 几 个 困难 的 子 程序 ， 以 及 我 在 测试 和 调试 的 过 程 中 所 使 用 
的 “脚手架 方法 ”。 大 厦 周围 的 脚手架 使 得 工人 能 够 接触 到 他 们 本 来 无 法 接触 到 的 地 方 ; 软件 中 
的 脚手架 由 临时 程序 和 数据 组 成 ,它们 可 以 使 程序 员 访问 系统 的 各 个 组 件 。 脚手架 不 会 随 着 程序 
一 起 发 放 给 客户 ， 然 而 在 测试 和 调试 中 却 是 不 可 或 缺 的 。 


背景 就 介绍 到 这 儿 ， 给 大 家 说 两 段 令 人 痛苦 的 回忆 。 


慎 悔 1。 数 年 前 ， 我 所 编写 的 一 个 500 行 左右 的 程序 中 间 需 要 使 用 一 个 选择 算法 子 程 
序 。 我 知道 这 个 问题 比较 困难 ， 就 从 一 本 相当 不 错 的 算法 课本 里 抄 了 20 行 代码 。 多 数 时 
候 程 序 都 能 正常 运行 ， 可 是 也 时 不 时 地 出 毛病 。 在 调试 了 两 天 之 后 ， 我 终于 发 现 问题 出 
在 那个 抄 来 的 选择 子 程序 里 面 。 在 大 多 数 的 调试 时 间 里 ， 我 根本 就 没 把 这 段 程序 列 入 怀 
疑 范围 之 内 : 我 相信 书 上 关于 该 程序 正确 性 的 非 正 式 证 明 ， 而 且 我 还 反复 检查 了 几 次 以 
保证 我 的 程序 和 书 上 的 一 样 。 但 是 ， 书 上 的 一 个 “<” 其 实 应 该 是 “三 ”。 我 对 那 本 书 
的 作者 有 些 失 望 ,不 过 更 加 为 自己 的 咏 夸 而 愧 恼 ! 花 15 分 钟 在 选择 子 程序 上 搭 一 个 脚 手 
架 就 能 解决 的 问题 ， 我 却 浪费 了 两 天 的 时 间 。 

慎 悔 2。 就 在 动笔 写本 章 的 几 个 星期 之 前 ， 我 正在 写 另 一 本 书 ， 其 中 包括 一 个 选择 
子 程序 。 我 使 用 了 程序 验证 的 方法 来 推导 代码 ， 所 以 确信 程序 是 正确 的 。 当 我 把 这 上 段 程 
序 放 进 书 的 正文 里 之 后 ， 我 想 知道 是 否 还 要 再 花 时 间 来 测试 它 。 我 不 置 可 否 ， 企 图 决 


结论 和 另外 一 段 慎 悔 将 出 现在 本 章 的 后 面部 分 。 


本 章 就 是 关于 小 型 算法 中 的 测试 与 调试 工具 的 。 我 们 将 仔细 地 检查 两 段子 程序 ， 并 修正 其 中 

几 个 常见 的 错误 ， 这 样 可 以 使 得 我 们 的 学 习 变 得 更 加 有 趣 。 艰 难 地 调 过 这 些 代 码 后 的 回报 是 , 本 [27] 
章 将 会 通过 描述 一 个 小 型 的 子 程序 库 并 测试 其 正确 性 来 总 结 调试 方法 , 我 希望 这 个 库 能 帮助 你 在 

自己 的 程序 中 使 用 正确 的 子 程序 。 
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警告 ， 前 方 的 代码 中 有 错误 
3.1 二 分 搜索 


“ 黑 盒 方法 ”是 一 种 极 问 的 测试 方法 : 由 于 完全 不 知道 程序 的 内 部 结构 ， 因 此 就 把 程序 当成 
一 个 黑 盒 ， 测 试 者 准备 好 一 系列 输入 ， 并 通过 程序 输出 来 确定 程序 是 否 正确 。 本 节 所 要 讲 的 是 测 
试 方法 的 为 外 一 个 极端 ， 把 代码 放 进 一 个 白 盒 子 " 里 ， 我 们 盯 着 它 一 步 步 地 运行 。 


我 们 要 研究 的 代码 是 一 段 二 分 搜索 。 下 面 就 是 子 程序 的 代码 以 及 一 个 简单 的 测试 框架 : 


function bsearch(t, 1, u, m) { 
l=]; u=n 
while {1 <= u} { 
m = int((l+u)/2) 
print " ", l,m u 
if (x[m] < t) l=m 
else if (x[m] > t) w= m 
else return m 
} 


return 0 


Sl== "fill", {n= $2; for (i = 1; i <= n; i++) x[i] = 10«i } 
$1== "n" {n= $2 } 

$1== "x" { x[$2] = $3 } 

$1== "print" { for i= 1; i <= n; i++} print i ":\t" x[i] } 
$1== "search" { t = bsearch($2); print "result:", t } 


这 个 用 Awk 写 的 函数 只 有 一 个 参数 :， 参 数 表 中 的 后 儿 项 都 是 局 部 变量 。 如 果 t 在 数组 中 ， 程 
序 将 返回 在 x[1..n] 中 的 下 标 ， 否 则 返回 0。print 语 句 全 程 跟踪 1!、m 和 ww 的 值 (当前 搜索 步 中 的 下 
边界 、 中 间 值 和 上 边界 )。 为 了 表明 这 是 一 个 脚手架 ， 我 把 它 放 到 了 最 左边 。 你 能 指出 这 段 代 码 
有 什么 问题 吗 ? 


程序 的 最 后 5 行 是 Awk 的 “模式 -动作 ”对 。 如 果 用 户 的 输入 匹配 了 左 侧 的 模式 ， 则 右 侧 括号 
里 的 代码 将 被 执行 。 如 果 用 户 输入 的 第 一 个 字段 “$1〉 是 fi11， 则 第 一 个 对 中 的 模式 成 真 。 在 
这 样 的 行 上 面 ， 第 二 个 字段 ($2) 将 会 成 为 4 的 值 ， 并 且 后 面 的 for 循 环 会 在 数组 x 中 添上 n 个 值 。 


下 向 一 段 文 本 来 自 于 这 个 程序 的 一 次 运行 。 我 先 输入 了 fi11 5， 然 后 程序 产生 了 一 个 5 个 元 
素 的 有 序数 组 。 当 我 输入 print 的 时 候 ， 程 序 打印 出 了 数组 的 内 容 。 


fill 5 

print 

1: 10 
2: 20 
3: 30 
4: 40 
5: 50 


O 从 人 逻辑 上 讲 ， 应 该 说 盒子 是 “不 透明 的 ”还 是 “透明 的 ”(* 漆 的 ”还 是 “玻璃 的 ”)， 不 过 我 还 是 坚持 传统 ， 使 用 
不 符合 逻辑 的 黑 与 白 的 说 法 。 
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下 面 我 们 对 于 数组 进行 几 次 搜索 。 我 输入 search 10， 接 下 来 的 3 行 表 明了 搜索 范围 不 断 缩小 并 
最 终 将 10 定 位 在 x 的 第 一 个 位 置 上 。 对 于 40 和 30 的 搜索 结果 也 是 同样 正确 的 。 


search 10 


1 
5 
1 2 3 
2 


result: 4 
search 30 

13 5 
result: 3 


(Axe, PP we SRM: 


© 


search 
1 


D oe ob b A A W 
Bbp BR pb b W 
mnmmmnmn mn un un 


在 这 个 提示 下 ， 你 能 找到 程序 的 错误 所 在 吗 ? 


二 分 搜索 应 该 可 以 不 断 缩小 /.x 的 范围 ， 直 到 终止 。 这 通常 是 通过 1=m 的 赋值 来 完成 的 ， 但 是 
当 / 与 m 的 数值 相等 时 ， 循 环 将 不 会 终止 。( 程 序 验证 的 方法 可 以 帮助 我 们 系统 地 推导 这 段 代码 ， 
m 是 证 明 停机 性 的 关键 .) 赋值 u=m 应 类 似 地 改 为 u=m-1。 修正 后 的 正确 的 二 分 搜索 代码 见 附录 B、。 


我 们 可 以 用 n 和 x 命令 修改 由 fi1l1l 命 令 产 生 的 数组 。 为 了 测试 修正 后 的 代码 对 于 含有 两 个 相 
同 元 素 的 数组 如 何 反 应 ， 我 们 用 命令 x 2 10 将 x[2] 设 置 为 10， 再 用 一 条 命令 设置 n 为 2。 


search 20 
1 1 2 
2 2 2 
result : 0 


30 | 
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在 对 于 20 的 搜索 中 ， 程 序 正确 地 得 出 20 不 在 数组 中 的 结论 。 


如 果 有 人 能 在 最 终 版 本 的 二 分 搜索 中 找 出 一 个 错误 ， 那 我 会 是 十 分 惊讶 的 。 我 使 用 程序 验证 
方法 证 明了 程序 的 正确 性 ， 并 用 附录 B 中 的 方式 通过 了 黑 盒 测试 。 通 过 本 节 中 的 简单 观察 ， 我 更 
加 确信 程序 的 工作 方式 和 我 预想 的 一 样 。 这 种 信心 就 来 自 于 这 6 行 Awk 代 码 构造 的 一 个 脚手架 。 


本 世 中 所 使 用 的 方法 很 简单 ， 人 人 都 知道 。 不 幸 的 是 ,程序 员 们 却 总 是 忽略 脚手架 这 类 人 简单 
的 方法 。 花 几 分 钟 来 测试 每 个 像 二 分 搜索 这 样 的 小 程序 的 原型 ,在 把 这 段 代 码 放 入 一 个 大 型 系统 
之 后 ,就 可 能 节省 几 个 小 时 的 调试 时 间 。 如 果 一 个 难度 较 大 的 子 程序 在 大 程序 中 出 错 ， 就 建立 一 
个 脚手架 ， 使 得 你 可 以 直接 访问 这 段 代 码 ， 或 者 更 干脆 ， 用 Awk 这 种 具有 良好 支持 的 语言 重新 构 
建 一 个 小 版 本 。 


3.2 ”选择 算法 


下 和 面 这 段 程序 使 用 Hoare 的 select 算 法 求 数组 x[1..n] 中 第 kt 小 的 元 素 。 其 工作 方式 就 是 排列 x 
中 的 元 素 ， 使 得 x[1..k-1] 志 x[ 有 9g 志 x[k+1..n]。 我 们 将 在 第 15 章 进一步 学 习 这 段 程序 : 


function select(l, u, k, i, m) { 
if (l <u) { 
swap(1, l+int((u-1+1)*rand())) 


for (i = 14+1; i <= u; itt) 
if (x[i] < x[1]) © 
swap(++m, i) 
swap(l, m) 
if (im < k) select (m+1, u, k) 
else if (m > k) select(1, m-1, k) 


} 
代码 正确 性 的 证 明 很 容易 ， 第 一 次 测试 就 通过 了 所 有 的 测试 实例 。 


这 个 程序 使 用 了 “ 尾 递归 ”: 递归 调用 位 于 子 程序 的 最 后 .通过 把 函数 调用 变 成 赋值 和 循环 ， 
可 以 谢 除 尾 递 归 。 下 一 个 版 本 用 while 循 环 取 代 了 尾 递归 ， 这 样 做 导致 了 我 的 下 一 个 慎 悔 。 我 的 
第 一 个 错误 当然 就 是 狭 辩 是 否 要 测试 这 段 代 码 。 任 何 一 个 像 我 这 样 常常 出 错 的 作者 ， 都 应 当 要 么 
承 好 好 测试 程序 ， 要 人 么 就 老 老实 实地 注 明 : “注意 一 一 下 面 的 代码 未 经 测试 ”。 第 二 个 错误 在 于 
这 个 选择 算法 本 身 ， 发 现 了 吗 ? 


function swap(i, j, t) {t = x[i]; x[i] = x[j]; x[j] =t} 
function select (k, l, u, i ) 
l= 1; u=n 
while (1 < u) { 
print l1, u 
swap{1l1, l+int((u-1+1)«rand())) 
m= 1 
comps = comps + u-l 
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for (i = l+1; i <= u; i++) 
if (x[i] < x[1l]}) 
Swap(++m, i) 
swap(l, m) 


if im < k) 1 = m+l 
else if (m > k) u = m-1 
} 
} 
Sl=="fill" {mn = $2; for (i = 1; i <= n; i++) x[i] = rand() } 
$1=="n" { n = $2 } 
$1=="x" { x[$2] = $3 } 
S$l=="print" { for (i = 1; i <= n; i++) print " ", x[i] } 
$1=="sel" { comps = 0; select{$2); print " . compares:", comps 
print " compares/n:", comps /n 
for (i=1; i < k; i++) if {x[i] > x[k]) print i 
for (i=k+1; i <= n; i++) if (x[i] < x[k]) print i 


} 


我 们 将 看 着 这 个 程序 一 步 步 地 工作 。f111 命 令 将 在 数组 中 放 满 [0, 1] 区 间 中 的 随机 数 , print 
命令 和 前 一 程序 的 功能 相同 。 


Fill § 

print 

.93941 
.532356 
.392797 
.446203 
.535331 


O OOG O 


命令 sel 3 将 数组 划分 开 ， 使 得 数组 中 的 第 三 小 的 元 素 放 在 x[3] 中 。 在 进行 运算 的 同时 ， 程 序 会 [31] 
将 中 间 数 据 打印 出 来 ， 并 检查 最 终 解 的 正确 性 。 后 续 的 print 命 令 将 显示 被 划分 后 的 数组 。 


el 3 
5 


w wu Ww WE 
e Aw oO 


compares: 11 

compares/n: 2.2 
print 

0.446203 

0.392797 
0.532356 
0.535331 
0.93941 


尽管 程序 结果 是 正确 的 ， 但 是 计算 过 程 却 很 可 疑 。 你 能 根据 计算 的 记录 找 出 错误 的 所 在 吗 ? 
我 们 重 构 数组 ， 以 使 错误 显露 得 更 加 明显 。 构 造 如 下 测试 : 


fill 2 


28 第 3 章 HR HIB 


x 1 5 
x 2 5 
print 
5 
5 


选择 第 2 小 的 元 素 仍然 可 以 正确 工作 ， 不 过 找 最 小 元 素 就 出 问题 了 。 


sel 2 
1 2 
compares : i 
compares/n: 0.5 
el 1 


有 了 这 个 信息 ， 我 很 容易 地 找到 了 错误 ， 并 更 谨慎 地 处 理 了 尾 递 归 消 除 所 产生 的 问题 。 修 正 后 的 
代码 见 15.2 廊 和 附录 B。( 这 个 程序 能 够 算出 很 多 的 正确 答案 ， 只 不 过 是 因为 其 中 的 随机 swap 语 
人 句 常 常 隐蔽 了 错误 办 了 。 随 机 性 通常 可 以 补偿 错误 ， 很 难说 这 是 好 还 是 坏 。) 


撤 开 正确 性 问题 不 说 ,原来 的 代码 存在 性 能 上 的 问题 : 即使 得 出 了 正确 的 结果 ， 花费 的 时 间 
也 太 长 了 。 在 第 15 章 中 ， 我 们 将 看 到 一 个 大 约 需 要 3.4n 次 比较 的 求 n 元 数组 中 位 数 的 算法 。 这 些 
铀 试 《 以 及 更 多 类 似 的 测试 ) 表明 附录 B 中 修正 过 的 程序 的 性 能 指标 的 确 可 以 达到 这 一 范围 : 
fill 50 
sel 25 
compares: 134 
compares/n: 2.68 
fill 100 
sel 50 


compares: 363 
compares/n: 3.63 


AS ake, REH TRKA A print HWET. EER, BRP 
想 的 方式 运行 ， 实 在 是 一 件 令 人 兴奋 的 事情 。 


3.3 FHRA 


本 章 在 《ACM 通 讯 》 上 发 表 之 前 ， 许 多 程序 员 都 说 他 们 以 之 前 发 表 的 文章 中 用 伪 代 码 描述 
的 算法 作为 基础 ， 拿 自己 喜欢 的 编程 语言 进行 了 重新 实现 。 我 一 直 想 要 把 这 些 算 法 整理 成 一 个 小 
的 库 ， 却 总 是 苦于 代码 太 长 。1985 年 初 ，Awk 语 言 中 引入 了 函数 ， 我 发 现 这 正 是 用 于 交流 子 程序 
代码 的 最 理想 的 工具 ， 函 数 可 以 使 得 代码 简洁 、 清 楚 ， 并 经 过 很 好 的 测试 。 


工业 级 子 程序 库 的 设计 者 不 得 不 面临 许多 困难 的 问题 ， 比 如 可 移植 性 、 效 率 、 接 口 通用 性 。 
议 计 者 还 必须 选择 一 种 合适 的 实现 语言 ， 使 得 用 它 编 程 的 程序 员 能 够 很 容易 地 访问 这 些 子 程序 。 
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然而 ， 这 样 的 选择 必然 导致 其 他 编程 语言 的 程序 员 无 法 使 用 该 子 程序 库 。 


附录 B 里 面 的 是 一 系列 “语言 无 关 ” 的 子 程序 ， 适 合 于 在 各 种 语言 中 实现 。 一 个 正常 的 程序 
员 通 常 不 会 用 Awk 这 样 的 东西 ?来 写 一 个 正经 的 程序 ， 这 些 代 码 对 于 那些 使 用 类 Algol 语 言 的 程序 
员 同 样 很 有 用 。 这 些 程 序 都 很 短 ， 我 们 放弃 了 追求 百 分 之 二 三 十 的 效率 提升 ， 而 选择 了 保持 程序 
的 简洁 性 。 程 序 没有 准备 接口 ， 所 有 的 程序 都 作用 于 数组 x[1..n]。 对 于 那些 没有 更 好 的 库 的 程序 
员 来 说 ， 编 写 简 短 、 清 晰 、 正 确 的 程序 是 一 个 很 好 的 出 发 反 。 


子 程序 本 身 所 占据 的 部 分 不 足 程 序 的 一 半 ， 余 下 部 分 都 是 用 于 黑 盒 的 正确 性 测试 。 (脚手架 
总 是 这 人 么 庞大 。 在 《人 月 神话 》 的 第 13 章 里 ，Fred Brooks2 认为 “一 个 软件 产品 中 应 该 有 一 半 的 
代码 都 是 脚手架 ”; 《计算 机 程序 设计 艺术 ， 卷 1》 的 1.4.1 节 中 ，Knuth 也 提出 了 要 准备 和 最 终 发 
布 的 代码 一 样 多 的 脚手架 。〉 所 有 测试 都 是 同一 结构 的 : 先 构造 输入 ， 然 后 调用 程序 ， 最 后 检查 
结果 。 这 些 测试 都 是 边 运行 边 报告 测试 进展 情况 。 这 有 助 于 定位 错误 ， 那 些 不 报告 错误 的 运行 
则 鼓舞 人 心 一 一 至 少 你 知道 程序 能 做 一 部 分 事情 。 这 些 测试 中 的 取 值 从 0 到 bign， 其 中 bign=12， 
所 做 的 工作 量 不 超过 O (mw)。 排 序 测试 考察 了 全 部 n! 种 排列 方式 ， 其 中 n 在 0 到 smalln 之 间 ， 
smalln=5。 这 样 可 以 在 很 大 概率 上 找 出 算法 在 处 理 哪 种 排列 的 时 候 会 失败 。( 多 数 的 随机 测试 无 
法 这 样 彻底 ,〉 在 一 台 VAX-11/750 计 算 机 上 ， 运 行 完整 的 测试 需要 7 分 钟 时 间 。 


除了 前 面 讨论 过 的 选择 程序 在 第 15 章 中 有 详细 的 描述 )， 我 所 写 的 这 些 Awk 程 序 都 是 从 之 
前 章 里 面 的 伪 代 码 翻译 过 来 的 。 这 些 章 曾 用 程序 验证 的 方法 对 程序 正确 性 给 出 了 非 正式 的 证 明 。 
在 本 书 出 版 之 前 ， 我 已 用 各 种 方法 测试 了 这 些 程序 ， 结 合 了 观察 、 测 量 以 及 黑 盒 测试 ， 书 中 有 几 
章 报告 了 我 在 测试 过 程 中 所 发 现 的 错误 。 因此 当 测 试 没有 发 现 逻 辑 错误 时 ， 我 并 不 感到 吃惊 : 我 
修正 了 几 处 语法 错误 ， 每 处 不 到 一 分 钟 。 


然而 测试 却 找 出 了 Awk 的 两 处 有 趣 的 错误 。 第 一 个 错误 使 得 二 分 搜索 程序 psearch 变 成 了 一 
个 无 限 循环 。 我 从 附录 B 中 提取 出 一 个 小 型 脚手架 《〈 关 似 于 3.1 节 的 脚手架 )， 很 明显 地 能 发 现 这 
个 无 限 循环 。 我 把 产生 这 一 结果 的 1$ 行 代码 拿 给 Brian Kernighan， 他 那个 时 候 正 在 问 Awk 中 加 几 
个 新 特性 。 我 当时 不 能 肯定 错误 是 在 我 的 程序 里 ， 还 是 在 他 的 程序 里 ， 不 过 错误 是 Kermnighan 的 
可 能 性 更 大 一 些 ， 我 这 样 做 冒 了 一 点 险 ， 要 是 错误 是 在 我 的 程序 里 ， 我 就 会 受到 他 的 奚落 。 把 代码 

else return m 


改 成 


else { print "returning"; return m } 








Q@ 除了 顺序 搜索 和 插入 排序 ， 库 中 所 有 的 程序 在 渐进 复杂 度 的 意义 上 都 是 最 优 的 一 一 通常 都 是 O(nlogn)。 对 于 与 数 
组 相关 的 问题 ，Awk 的 解释 执行 和 关联 数组 的 设计 会 使 得 程序 的 运行 速度 比 起 那些 传统 的 编译 语言 慢 上 几 个 数 
量 级 。 

@) Fred Brooks (1931 一 )， 著 名 计算 机 科学 家 ， 因 在 计算 机 体系 结构 、 操 作 系统 和 软件 工程 方面 里 程 碑 性 的 贡献 
而 荣获 1999 年 图 灵 奖 。 他 在 IBM 公 司 领 导 了 OS/360 操 作 系 统 的 开发 ， 并 以 此 经 历 写 成 名 著 《 人 月 神话 》 30 多 
年 后 仍 畅 销 不 衰 。 他 于 1965 年 创办 北 卡罗来纳 大 学 计算 机 系 ， 并 执教 至 今 。 一 一 编者 注 
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就 可 以 看 到 Awk 解 释 器 中 的 新 函数 犯 了 一 个 常见 错误 在 一 个 循环 中 没有 正确 执行 return 语 句 。 
在 找到 这 个 错误 之 后 ，Kernighan 花 了 不 到 10 分 钟 就 修正 了 Awk。 


然后 我 跑 回 我 的 终 问 前 ， 很 兴奋 地 看 到 这 次 二 分 搜索 成 功 地 通过 了 mn 从 1 到 9 的 测试 。 然 而 当 
n=10 的 时 候 ， 程 序 再 次 失败 了 ， 我 的 心 者 快 碎 了 。 那 个 时 候 ，bign=10。 我 实在 想 不 出 为 什么 程 
序 会 在 n=10 的 时 候 失 败 ， 又 按照 bign=9 和 bign=11 各 运行 了 一 次 ， 希 望 问题 的 产生 是 因为 那 是 最 
后 一 次 测试 。 不 六 的 是 , 代码 总 是 一 直到 9 都 能 正确 运行 , 然后 运行 10 或 者 11 就 会 出 错 。 从 9 到 10， 
到 搬出 了 什么 问题 ? 


Awk 变 量 既 可 以 是 数值 ， 也 可 以 是 字符 串 。Awk 的 说 明 书 中 说 ， 如 果 比 较 的 双方 都 是 数值 ， 
那么 就 按 照 数值 比较 的 规则 来 比较 ， 否则 就 按照 字符 上 串 的 规则 来 比较 。 由 于 这 个 程序 涉及 函数 调 
用 的 特殊 情况 ， 解 释 器 误 认为 字符 串 "10" 先 于 字符 串 "5"。 我 写 了 6 行 的 小 程序 捕捉 到 了 这 个 错 
误 ，Kernighan 在 次 日 解决 了 这 个 问题 。 


3.4 原理 
本 章 触及 了 程序 员 日 常 工作 中 的 一 些 常见 任务 。 它 们 可 能 不 是 那么 吸引 人 人 , 但 是 绝对 很 重要 。 


脚手架 。 本 章 介绍 了 程序 原型 、 在 程序 中 加 入 输出 以 观察 运行 过 程 、 度 量 代码 以 及 组 件 测试 
等 方法 。 其 他 的 脚手架 方法 还 有 测试 数据 (虚拟 的 文件 和 数据 结构 〉 以 及 使 用 “ 残 桩 ”代码 模拟 
未 完成 的 程序 从 而 方便 自 项 向 下 的 测试 。 


专用 语言 。 合 适 的 编程 语言 可 以 使 代码 的 长 度 减少 一 个 量 级 ,清晰 程度 上 升 一 个 量 级 。 请 大 
家 日 己 发 抉 各 语言 的 优势 和 特性 。Awk 是 一 种 构造 算法 原型 的 极 好 的 语言 ， 其 内 建 的 关联 数组 可 
以 使 你 模拟 许多 常用 的 数据 结构 ， 它 的 字段 、 隐 式 循环 、 模 式 -动作 对 等 设计 极 大 地 简化 了 输入 
输出 过 程 ， 隐 式 的 变量 声明 和 初始 化 也 使 得 程序 更 加 简洁 。A4WK Programming Language — P (W 
2.60) 的 第 7 音 中 还 有 关于 用 Awk 进 行 算法 实验 的 更 多 资料 。13.2 节 和 答案 14.6 给 出 了 两 个 小 型 算 
法 中 应 用 的 AwKk 脚 手 架 。 


测试 与 调试 。 本 章 专注 于 测试 和 调试 小 的 程序 。 先 用 使 用 白 盒 测试 的 方法 观察 程序 是 否 按照 
我 们 预想 的 方法 运行 ， 然 后 再 用 黑 盒 测试 来 增加 自己 对 于 程序 正确 性 的 信心 。 


错误 报告 。 对 于 子 程序 库 的 组 件 测试 不 经 意 间 变 成 了 对 于 Awk 最 近 新 引入 特性 的 一 次 系统 测 
试 。Kernighan 把 这 种 现象 称 作 “ 新 用 户 现象 ”: 新 系统 的 每 一 个 新 用 户 都 能 够 发 现 一 系列 的 新 
错误 。 相 比 于 之 前 的 用 户 ， 我 对 函数 的 钻研 和 更深。 在 这 个 300 行 的 程序 两 次 遇 到 Awk 的 错误 时 ， 
我 都 是 先 用 一 段 小 的 程序 (一 个 是 15 行 ， 一 个 只 有 6 行 ) 重 现 这 一 奇异 的 现象 ， 然 后 才 报 告 错误 
的 。 贝 尔 通 信 研 究 院 的 Stu Feldman 这 样 描述 他 多 年 来 维护 一 个 Fortran 编 译 器 的 经 验 : 


当 你 在 错误 报告 附 上 25 000 行 代码 的 时 候 ， 无 论 是 程序 作者 、 支 持 机 构 还 是 你 的 朋 
友 ， 都 会 选择 无 视 你 的 报告 。 我 花 了 几 年 时 间 来 教会 他 这 一 点 (为 了 保护 当 事 人 ， 把 姓 





3.5 习题 31 


名 隐 去 了 )。 采 用 的 技术 包括 凝视 代码 、 发 挥 直觉 、 用 二 分 法 ( 试 着 扔 掉 子 程序 的 后 半 


部 分 ) 等 等 


如 果 你 发 现 了 一 个 错误 ， 请 使 用 最 小 的 测试 用 例 来 报告 它 。 


程序 验证 的 角色 。 为 了 保证 自己 的 程序 是 正确 的 ,我 会 使 用 任何 可 用 的 方法 。 非 正式 的 验证 


方法 可 以 帮助 我 编写 代码 ， 并 在 实现 前 就 检验 我 的 想法 ,一 旦 实现 了 代码 ,测试 就 变 成 了 最 关键 
的 问题 。 我 在 程序 验证 方面 有 了 些 经 验 后 ， 再 也 不 会 对 于 一 个 复杂 的 小 程序 第 一 次 运行 就 正常 工 
作 而 感到 慰 讶 。 如 果 程 序 不 能 工作 ,我 会 通过 测试 和 调试 的 方法 找到 没有 被 满足 的 断言 ， 并 修改 
相应 的 代码 。( 我 对 于 “赶快 改 ， 直 到 程序 正常 工作 为 止 ” 之 类 的 催促 向 来 不 感冒 一 一 我 只 写 我 
能 够 理解 的 程序 。) 附录 B 中 展示 了 断言 的 两 种 用 法 : 一 个 程序 的 前 置 和 后 置 条 件 准 确 而 简洁 地 描 
述 了 程序 的 行为 ， 代 码 中 的 断言 注释 (尤其 是 循环 不 变 式 ) 解释 了 算法 。 如 何 把 验证 方面 的 想法 
更 直接 地 应 用 于 测试 ， 请 参考 习题 3。 


3.5 习题 


l. 


2. 


3. 


构建 脚手架 ， 使 得 你 可 以 通过 它 观 察 附录 B 中 程序 的 行为 。 堆 看 起 来 特别 有 趣 。 
改进 附录 B 中 的 assert 程 序 ， 使 得 它 可 以 报告 错误 发 生 的 位 置 。 


assert 程 序 也 可 以 用 于 白 盒 测试 : 把 现在 注释 中 的 断言 改写 成 对 于 断言 程序 的 调用 。 用 这 种 
方式 重 与 附录 B 中 一 个 程序 的 断言 。 按 照 习 题 4 的 要 求 ， 这 样 做 能 否 增 强 测试 能 力 ? 


. 通过 在 不 同 的 程序 中 引入 新 的 错误 来 评价 附录 B 中 的 黑 盒 测试 。 哪些 测试 能 够 捕捉 哪些 错误 ? 
. 用 万 一 种 编程 语言 重 写本 章 的 程序 。 相 比 于 Awk 代 码 ， 它 们 长 了 多 少 ? 
. 编写 脚手架 ,使 自己 能 够 计算 附录 B 中 不 同 算法 的 时 间 性 能 。 你 能 用 图 形 的 方法 把 结果 表示 出 


来 吗 ? 


. 对 于 一 个 不 同 的 问题 领域 《比如 图 算法 )， 建 立 一 个 类 似 的 子 程序 库 。 力 求 得 到 简短 正确 并 效 


率 合理 的 算法 。 


. 仪 仪 从 附录 B 中 的 字面 说 法 上 理解 ， 下 面 的 程序 可 以 算是 一 个 正确 的 排序 算法 : 


for (1 = 1; i <= n; i++) 

x[i] = i; 
排序 算法 当然 还 必须 保证 输出 的 数组 是 输入 的 一 个 排列 。 附 录 B 中 的 堆 排序 和 选择 排序 算法 仅 
仅 使 用 swap 程 序 来 修改 数组 ， 从 而 保证 满足 这 一 性 质 。 而 对 于 一 个 没有 这 样 好 的 结构 的 程序 ， 
你 将 如 何 测试 这 一 性 质 呢 ? 
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你 刚刚 用 了 三 个 CPU 小 时 执行 一 次 模拟 来 预测 你 公司 未 来 的 经 济 情况 ,老板 让 你 解释 下 面 的 
输出 : ~ -o | 


Scenario 1: 3.2% -12.0% .1 


Scenario 2: 12.7% 0.8% 8.6% 
Scenario 3: 1.6% -8.3% 9? 2% 
IA. eeeee 


你 开始 钻研 模拟 程序 来 找 出 每 个 输出 变量 的 含义 。 好 消息 一 方案 2 为 下 一 个 财政 年 度 规划 
了 美好 的 前 景 。 现 在 你 要 做 的 一 切 就 是 揭示 其 中 的 奥妙 。 咬 呀 _ ”方案 1 是 你 公司 当前 的 策略 ， 
注定 要 失败 。 方 案 2 做 了 什么 , 让 它 如 此 有 效 ? 回 到 程序 , 试 着 找 出 每 种 方案 读 取 的 输入 文件 …… 


每 个 程序 员 都 知道 破解 神秘 数据 的 挫折 与 艰辛 本章 前 两 节 讨论 两 种 在 数据 文件 中 嵌入 描述 
的 技术 ， 第 3 节 将 这 两 种 方法 应 用 到 具体 问题 上 。 


4.1 名 字 - 值 对 
许多 文档 生成 系统 支持 如 下 形式 的 文献 引用 参考 : 


Sauthor A.V. Aho 
author M.J. Corasick 
$title Efficient string matching: 
an aid to bibliographic search 
journal Communications of the ACM : 
volume 18 
$number 6 
$month June 
$year 1975 
pages 333-340 : 
$title The Art of Computer Programming, 
Volume 3: Sorting and Searching 
tauthor D.E. Knuth 


publisher Addison-Wesley 
city Reading, Mass. 
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$year 1973 


空白 行 分 隔 文件 中 不 同 的 项 。 以 百 分 号 开头 的 一 行 包 含 一 个 识别 项 ， 后 面 跟着 任意 文本 ， 文 本 可 
以 延续 到 后 续 的 行 而 不 必 以 百 分 号 开头 。 


目录 文件 中 的 行 是 名 字 - 值 对 : 每 一 行 包含 一 个 属性 的 名 称 和 该 属性 的 取 值 。 名 字 和 取 值 足 


以 进行 目 描述 ,因此 不 需要 对 它们 进行 详细 说 明 。 这 种 格式 用 来 表示 目录 和 其 他 复杂 数据 模型 是 


特别 便利 的 。 它 支持 缺失 属性 〈 没 有 卷 号 的 书 和 没有 所 属 城市 的 期 刊 )、 多 重 属 性 《〈 比 如 作者 ) 
以 及 字段 的 任意 排序 《你 不 需要 记 住 卷 号 是 否 在 月 份 之 前 )。 


名 字 - 值 对 在 许多 数据 库 中 是 有 用 的 。 比 如 ， 在 海军 舰艇 数据 库 中 ， 可 能 会 用 如 下 的 名 字 - 值 
对 描述 美国 的 尼 米 兹 号 航空 母 舰 : 


name Nimitz 
class CVN 
number 68 
displacement 81600 
length 1040 
beam 134 
draft 36.5 
flightdeck 252 
speed 30 
officers 447 
enlisted 5176 


这 样 一 条 记录 对 输入 、 存 储 和 输出 可 能 是 有 用 的 。 用 户 可 以 使 用 标准 文本 编辑 器 将 该 记录 项 插入 
数据 库 中 。 数 据 库 系统 可 能 会 用 这 种 形式 来 存储 记录 ， 马 上 我 们 会 看 到 一 种 空间 效率 更 高 的 数据 
表示 。 这 条 记录 可 以 包含 在 如 下 查询 的 答案 中 : “哪些 舰艇 的 排水 量 高 于 75 000 吨 ? ” 


名 字 - 值 对 在 这 一 假想 的 应 用 中 提供 了 许多 有 利 条 件 。 输 入 、 存 储 和 输出 可 以 使 用 同一 种 格 
式 ， 这 束 同 时 简化 了 用 户 和 实现 者 的 工作 。 这 一 应 用 本 质 上 是 可 变 格 式 的 ， 因 为 不 同 舰艇 具有 不 
同 的 属性 : 潜艇 没有 飞行 甲板 而 航母 则 没有 潜水 深度 。 不 幸 的 是 , 例子 中 并 没有 在 文档 中 为 不 同 
属性 的 数量 提供 单位 ， 马 上 我 们 就 会 回 到 这 个 问题 上 来 。 


一 些 数据 库 系统 使 用 上 面 提 到 的 形式 将 记录 存储 在 大 块 存储 器 中 。 这 种 形式 可 以 特别 容易 地 
为 已 有 的 数据 库 中 的 记录 增加 字段 。 和 具有 多 个 字段 且 多 数字 段 为 空 的 固定 格式 的 记录 相 比 ， 
名 字 - 值 对 格式 的 空间 效率 相当 高 。 然 而 ， 如 果 存 储 空 间 紧 缺 ， 相 应 的 数据 库 可 以 压缩 成 如 下 
格式 : 


naNimitziclLCVNInu681di8160011e1040 1 
bel34/dr36.5!£1252/)sp30!0£4471!en5176 


每 个 字段 以 两 个 字符 组 成 的 名 字 开 头 ， 以 垂直 线 结束 。 输 入 /输出 格式 和 存储 格式 通过 人 
字典 进行 关联 ， 
ABBR NAME UNITS 


na name text 
cl class text 
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nu number text 

di displacement tons 

le length feet 

be beam feet 

dr draft feet 

f1 flightdeck feet 

sp speed knots 

of officers personnel 
en enlisted personnel 


在 这 个 字典 中 ,缩写 总 是 取 名 字 的 前 两 个 字符 ,但 并 非 一 般 情 况 下 都 这 样 。 讨 厌 虚伪 的 读者 或 许 
会 抱 急 上 面 的 数据 并 不 是 一 种 名 字 - 值 的 格式 。 正 常 的 结构 支持 列表 格式 ， 但 注意 开头 行 是 嵌入 
在 数据 中 的 另 一 种 自 描述 。 


名 字 - 值 对 是 一 种 为 程序 提供 输入 的 便利 方式 。 它 是 第 9 章 将 要 描述 的 “小 语言 ”中 最 小 的 一 
种 ， 可 以 帮助 满足 Kernighan 和 Plauger 在 Elermentg of Programming Style ($2 McGraw-Hill Hh 
社 在 1978 年 出 版 ) 的 第 5 章 提 出 的 评判 标准 : 


使 用 有 助 于 记忆 的 输入 和 输出 。 让 输入 易于 准备 (也 易于 正确 地 准备 )， 将 输入 和 
任何 系统 默认 值 回 显 到 输出 中 ， 使 得 我 们 不 需要 对 输出 加 以 说 明 ， 


名 学- 值 对 在 与 输入 -输出 没什么 关系 的 代码 中 也 是 很 有 用 的 。 比 如 ,假设 我 们 想 要 写 一 个 子 
程序 门 数据库 中 加 入 一 条 舰艇 。 多 数 语言 用 参数 列表 中 的 位 置 对 参数 的 《正式 ) 名 字 进 行 指称 。 
位 置 指称 会 导致 非常 笨拙 的 函数 调用 : 


addship( "Nimitz", "CVN", "68", 81600, 1040, 
134, 36.5, 447, 5176,,,30,,,252,,,, ) 


缺失 参数 表示 本 记录 中 没有 的 字段 。30 指 的 是 以 海里 /时 为 单位 的 航速 ， 还 是 以 英尺 为 单位 的 吃 [35] 
水 深度 ? 注释 习惯 上 的 一 点 点 训练 可 以 帮助 解决 这 一 混乱 ， 


addship( "Nimitz", # name 
"CVN", # class 
"68" , # number 
81600, # disp 
1040, # length 


一 些 语言 支持 命名 参数 ， 这 让 事情 更 容易 了 : 


addship(name = "Nimitz", 
class = "CVN", 
number = "68", 


disp = 81600, 
length = 1040, 
wee) 


如 条 你 的 语言 没有 命名 参数 ， 你 可 以 使 用 一 些 子 程序 来 模拟 〈 变 量 name、class 等 是 不 同 的 
整 型 ): | 
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shipstart({) 
shipstr (name, "Nimitz") 
shipstr (class, "CVN") 


shipstr (number, "68") 
shipnum(disp, 81600) 
shipnum(length, 1040) 


shipend() 
4.2 记录 来 历 


一 件 博物 馆藏 品 的 来 历 (provenance) 列 出 了 它 的 由 来 或 起 源 ， 具 有 来 历 的 古董 更 加 珍贵 (这 
张 椅 子 是 如 此 这 般 制 造 的 ， 然 后 由 某 某 人 购买 ， 等 等 )。 或 许 我 们 可 以 把 来 历 作 为 一 件 非 生物 的 
血统 来 看 待 。 


对 许多 程序 员 而 言 ， 来历 是 很 陈腐 的 观念 。 一 些 软件 商店 坚持 程序 的 来 历 要 保存 在 它 的 源 代 
码 中 : 作为 对 模块 其 他 使 用 说 明 的 补充 ， 来 历 给 出 了 代码 的 历史 ( 何 时 由 何人 做 了 逢 么 改动 ,为 
什么 要 做 相应 的 改动 )。 数 据 文 件 的 来 历 通常 保存 在 一 个 关联 文件 〈 比 如 更 新 记录 ) 中 。 杜 克 大 
学 的 Frank Starmer 讲 述 了 他 的 程序 如 何 生成 包含 自身 来 历 的 数据 文件 。 


我 们 经 钊 面临 这 样 的 问题 : 如 何 记录 我 们 对 数据 进行 过 的 操作 。 常见 的 做 法 是 通过 
创建 一 个 如 下 形式 的 UNIX 管 道 来 考察 数据 集合 : 
sim.events -k 1.5 -1 3 | 


sample -t .01 | 
bins -t .01 


第 一 个 程序 是 带 有 两 个 参数 K 和 1 (在 本 例 中 被 设置 成 1.5 和 3 ) 的 模拟 程序 ?。 第 一 行 结尾 
的 重 直 线 把 输出 输送 给 第 二 个 程序 , 后 者 对 指定 频率 的 数据 进行 取样 ,进而 再 将 输出 输 


当 看 到 这 样 的 计算 结果 时 , 对 不 同 命令 行 和 用 到 的 数据 文件 使 用 一 个 “审核 记录 ” 
(audit trail) 是 有 帮助 的 。 因 此 我 们 创建 了 一 种 机 制 来 “注释 ”文件 ， 以 便 在 审核 输出 
时 ， 一 切 都 能 被 显示 或 打印 出 来 。 


我 们 使 用 几 种 类 型 的 注释 。 一 个 “审核 记录 ” 行 识别 一 个 数据 文件 或 一 条 命令 行 转 
BR, 一个“ 字典”( dictionary ) 行 给 输出 的 每 一 列 的 属性 进行 命名 。 一 个 “ 帧 分 隔 符 ” 
( frame separator ) 将 一 系列 与 某 个 一 般 事件 相关 联 的 记录 分 离开 。 一 条 “ 注 ”(note ) A 
许 我 们 在 文件 中 加 入 自己 的 评论 。 所 有 注释 的 开头 都 是 一 个 叹 号 紧 跟 该 注释 的 类 型 ; 其 
他 各 行 都 保持 原样 并 且 作 为 数据 进行 处 理 。 这 样 上 面 管道 的 输出 看 上 去 可 能 是 这 样 : 


trail sim.events -k 1.5 -1 3 
'trall sample -t .01 


© 注意 这 两 个 参数 是 通过 一 种 简单 的 名 字 -~ 值 机 制 设 置 的 。 
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'trail bins -t .01 
{dict bin bottom value item_count 


0.00 72 
0.01 138 
0.02 121 


‘note there is a cluster around 0.75 
!frame 


我 们 的 程序 库 中 的 所 有 程序 都 自动 地 从 输入 中 将 已 有 的 注释 复制 到 输出 中 去 ， 此 
外 还 加 入 一 个 新 的 trail 注 释 为 它们 自己 的 动作 记录 文档 。 重 新 定义 数据 格式 的 程序 
(如 pins ) 加 入 一 条 dict 注 释 来 描述 新 的 格式 。 


我 们 这 样 做 是 为 了 可 以 活 下 来 。 这 一 训练 对 输入 和 输出 数据 文件 的 自明 性 是 有 者 
助 的 。 其 他 很 多 人 创建 了 类 似 的 机 制 ， 只 要 可 能 ， 我 都 将 别人 加 强 的 地 方 复制 过 来 而 
不 是 自己 编写 新 的 。 


贝尔 实验 室 的 Tom Duff 在 一 个 处 理 图 片 的 系统 上 使 用 了 类 似 的 策略 。 他 开发 了 一 大 套 UNIX 
程序 对 图 片 进行 转换 。 一 个 图 片 文件 包含 文本 行 以 及 图 片 本 身 《〈 以 二 进 制 表 示 )， 文 本 行列 出 了 
生成 该 图 片 〈 以 空白 行 结尾 ) 的 命令 。 作 为 文件 开头 的 文本 行 提供 了 图 片 的 来 历 。 在 开始 这 项 实 
践 忆 前 ，Duft 有 时 会 得 到 精美 的 图 片 ， 但 却 不 知道 什么 样 的 转换 生成 了 它 ， 现 在 他 可 以 从 图 片 的 
来 历 中 重新 构造 任何 图 片 了 。 


Du 人 i 用 单个 库 程 序 实现 了 图 片 的 来 历 ， 所 有 程序 在 执行 之 前 都 调用 这 一 库 程序 ， 后 者 将 老 的 
命令 行 复制 到 输出 文件 中 ， 然 后 将 当前 程序 的 命令 行 写 到 输出 中 。 


4.3 排序 实验 


为 使 上 面 的 想法 更 具体 些 ， 我 们 将 其 应 用 到 排序 程序 的 实验 任务 上 。 上 一 章 的 实验 处 理 程序 
的 正确 性 ， 本 证 的 实验 关注 程序 的 运行 时 间 。 本 节 将 简单 介绍 一 个 用 来 收集 性 能 数据 的 接口 ， 第 
15 章 将 使 用 这 样 的 数据 。 输 入 和 输出 都 用 名 字 - 值 对 来 描述 ， 而 输出 包含 了 输入 的 完整 描述 〈 输 
入 的 来 历 )。 


排序 算法 的 相关 实验 包含 调整 各 种 参数 、 执 行 指定 的 程序 ， 然 后 报告 计算 过 程 的 关键 属性 。 
将 要 被 执行 的 具体 操作 可 以 通过 一 系列 名 字 - 值 对 来 描述 。 因 此 排序 小 实验 的 输入 文件 可 以 是 下 
TE SIR 


n 100000 
input identical 
alg quicksort 
cutoff 10 


@ Tom Duff (19$2 一 )， 著 名 程序 员 ， 目 前 任职 于 迪士尼 公司 Pixar 动 画工 作 室 ， 合 作 开 发 了 计算 机 图 形 学 关键 技术 
之 一 Porter-Duff 图 像 合成 法 。 他 也 是 著名 的 Unix 上 rc shell 的 作者 。 一 一 编者 注 
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partition random 
seed 379 


本 例 的 问题 规模 n 被 设置 为 100 000。 输 入 数组 初始 化 为 idqentical 元 素 〈 其 他 选项 包括 
random、sorted 或 reversed 元 素 )。 本 实验 中 排序 算法 有 quick (快速 排序 )、insert (FRA 
排序 ) 和 heap《 挫 排序 )。cutoft 和 partition 有 具体 指定 了 quicksort 算 法 的 一 些 实现 中 的 额 


外 参数 。 


模拟 程序 的 输入 是 一 系列 上 述 格式 的 实验 ， 由 空白 行 分 隔 。 输 出 刚好 是 同样 格式 的 名 字 - 值 
对 ， 也 由 经 百 行 分 辣 。 输 出 记录 的 第 一 部 分 包含 原 输入 的 描述 ， 即 每 个 实验 的 来 历 。 输 入 之 后 是 
3 个 额外 的 属性 : comps 记 录 比 较 的 次 数 ，swaps 对 交换 次 数 进行 计数 ， 而 cpu 记 录 过 程 的 运行 时 
间 。 因 此 一 个 输出 记录 会 包含 上 述 的 输入 记录 ， 后 面 跟着 如 下 的 字段 : 


comps 4772 
swaps 4676 
cpu 0. 1083 


给 定 排 序 程序 和 额外 的 支持 过 程 ， 就 容易 创建 控制 程序 了 。 其 主 循环 可 以 用 伪 代 码 表示 


如 下 : 


loop 
read input line into string S 
if end of file then break 
Fil := first field in S 
F2 := second field in S 
if S$ = "" then 
simulate () 


reset variables to their default values 


else if Fl = "n" then 
N := F2 
else if F1 = "alg" then 


if F2 = "insertsort" then alg 
else if F2 = "heapsort" then alg 
= "quicksort” then alg 


else if F2 
else error ("bad alg") 
else if F1 = "input" then 


write S on output 
Simulate () 


代码 读 取 每 个 输入 行 ， 处 理 名 字 - 值 对 ， 然 后 把 它 复制 到 输出 当中 。simulate () 子 程序 进行 实 
验 并 将 名 字 - 值 对 写 到 输出 中 ， 它 在 每 个 空白 行 和 文件 结尾 处 被 调用 。 


这 一 简单 结构 对 许多 模拟 程序 都 是 有 用 的 。 其 输出 可 被 人 类 识别 或 作为 后 续 程序 的 输入 。 输 
入 变量 一 同 为 实验 提供 了 来 历 ; 因为 它们 与 输出 变量 一 同 出 现 , 任何 特定 的 实验 都 可 以 重复 执行 。 
变量 格式 允许 额外 的 输入 和 输出 参数 被 加 入 到 之 后 的 模拟 当中 ， 而 不 需要 更 改 已 有 数据 的 结构 。 


习题 8 显示 了 这 一 方法 如 何 用 来 进行 成 组 的 实验 。 


>》 
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44 原理 

本 章 只 是 介绍 了 一 些 自 描述 数据 的 皮毛 。 比 如 ， 一 些 系统 允许 程序 员 将 两 个 未 指定 类 型 的 数 
值 ( 从 整数 到 复数 矩阵 ) 对 象 相 乘 。 系 统 在 运行 时 会 先 检 查 存 储 在 操作 数 中 的 描述 来 决定 其 类 型 ， 
进而 执行 合适 的 操作 。 标 记 体 系 结构 Ctagged-architecture) 的 机 器 ?为 自 描述 对 象 提供 了 硬件 支 
持 , 一 些 通信 协议 也 将 对 数据 格式 和 类 型 的 描述 与 数据 本 身 一 同 存储 。 我们 很 容易 找 出 更 多 五 花 
八 门 的 自 描述 数据 的 例子 。 | 

本 章 集 中 讨论 两 种 简单 但 却 有 用 的 自 描述 。 每 种 自 描述 都 反映 了 程序 文档 生成 的 重要 原理 。 

最 重要 的 文档 助手 是 简洁 的 编程 语言 。 

名 字 - 值 对 是 一 种 简单 、 优 美 而 且 实 用 的 语言 机 制 。 


程序 文档 的 最 佳 位 置 就 在 源 文 件 中 。 数 据 文 件 是 保存 该 文件 自身 来 历 的 好 地 方 ， 不 仅 易于 操 
VEM HADER 


45 习题 


1. 目 文 档 化 程序 包含 有 用 的 注释 和 提示 性 缩 进 。 实 验 一 下 ， 对 一 个 数据 文件 进行 排版 ， 使 其 便 
于 阅读 。 必 要 的 话 ， 请 修改 程序 ， 在 处 理 文件 时 忽略 空白 和 注释 。 先 使 用 文本 编辑 器 做 。 如 
采 排 版 后 的 记录 便于 阅读 ， 那 么 再 试 着 编写 一 个 “美观 打印 ”程序 以 这 种 格式 呈现 任意 一 条 


2. 给 出 一 个 数据 文件 的 例子 ， 该 文件 包含 一 个 对 它 自 己 进行 处 理 的 程序 。 


3. 好 的 程序 利用 注释 成 为 自 描述 性 的 ， 然 而 自 描述 程序 终极 目标 却 是 在 其 执行 时 打印 它 的 源 代 
码 。 用 你 最 喜欢 的 语言 写 一 个 这 样 的 程序 。 

4. 许多 文件 是 隐 式 自 描述 的 : 尽管 操作 系统 并 不 知道 它们 包含 什么 ， 用 户 却 能 一 眼看 出 一 个 文 
件 包 含 的 是 程序 源 代 码 、 英 文 文本 、 数 值 数 据 还 是 二 进 制 数 据 。 如 何 编写 程序 ， 对 这 样 一 个 
文件 的 类 型 进行 有 启发 性 的 猜测 ? 

5. 在 你 的 计算 环境 下 找 出 一 些 名 字 - 值 对 的 例子 。 

6. 找 出 -一 个 你 认为 难以 使 用 的 具有 固定 输入 格式 的 程序 ， 修 改 它 让 它 读 取 名 字 - 值 对 。 直 接 修 改 
程序 容易 些 还 是 为 已 有 的 程序 写 一 个 新 的 前 端 程序 容易 些 ? 

7. 举例 说 明 下 述 一 般 原则 : 程序 输出 应 当 与 输入 相 和 适应。 例如， 如 果 一 个 程序 希望 数据 以 格式 
“06/31/88” 来 输入 ， 那 么 就 不 应 该 像 下 面 这 样 输出 ; 


Enter date (default 31 June 1988): 








D 在 Lisp 机 器 和 Burough 大 系统 等 标记 体系 结构 计算 机 中 ， 每 个 机 器 字 都 由 数据 和 描述 数据 的 标记 组 成 。 编者 注 
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. 文中 概述 了 如 何 对 一 个 排序 算法 做 实验 。 然 而 ， 通 常情 况 下 ， 实 验 都 是 成 组 进行 的 ， 并 且 会 


有 计划 地 设置 不 同 的 参数 。 构 造 一 个 生成 程序 ， 将 描述 


n [100 300 1000 3000 10000] 
input {random identical sorted] 
alg quicksort 

cutoff [5 10 20 40] 


partition median-of-3 


转换 成 5X3X4= 60 种 不 同 的 描述 ， 方 括号 列 出 的 每 一 项 都 在 乘积 中 被 展开 。 怎 样 在 语言 中 加 
入 更 复杂 的 迭代 项 ， 比 如 [from 10 to 130 by 20)? 


9. 如 何 使 用 Awk 的 关联 数组 实现 名 字 - 值 对 ? 





Ak D 
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有 些 不 动脑 筋 的 护士 就 会 刺 破 你 食指 的 指头 肚 ， 那 正 是 这 个 最 常用 手指 的 最 敏感 部 位 。 其 实 
| BEEF ACE ILI MAREN CAH) OCR MBA 比如 从 指甲 到 指头 肚 一半 距 
离 的 侧面 。 这 个 技巧 可 以 让 献血 者 更 好 受 些 。 请 把 这 个 技巧 告诉 你 的 朋友 。 


这 几 章 描述 程序 员工 作 中 的 一 些 类 似 的 技巧 。 第 5 章 讲述 找 出 困难 问题 的 简单 解法 ， 第 6 


。 章 是 一 组 经 验 法 则 ， 第 7 章 描述 在 计算 中 有 用 的 速算 ， 第 8 章 是 关于 管理 大 型 软件 项 目的 ， 其 


“窍门 在 于 要 让 处 在 第 一 线 的 程序 员 从 老板 的 角度 来 看 待 问题 


这 里 你 看 不 到 很 多 的 代码 和 数学 知识 。 这 几 章 讲 的 技巧 比 从 无 名 指 侧面 取 血 样 高 明 不 了 多 


“ 少 。 好 就 好 在 ， 这 些 技巧 同样 有 用 ， 并 且 不 难 应 用 。 
第 5 章 发 表 在 1986 年 2 月 的 《ACM 通讯 》 E, 第 6 章 发 表 于 1986 年 3 月 ， 第 7 章 发 表 于 
1985 年 9 月 ， 第 8 章 发 表 于 1987 年 12 月 。 
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第 8 章 ”人员 备忘录 
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戈 尔 迪 打 了 那个 著名 的 结 "， 并 许诺 把 整个 亚洲 奖 给 能 解 开 这 个 结 的 人 。 几 百年 来 这 个 结 纹 
丝 不 动 ， 直 到 公元 前 333 年 亚历山大 大 帝 来 了 。 他 没有 重 踢 覆 斩 ， 而 是 拔 出 剑 来 ， 将 结 一 臂 两 半 ， 
他 随即 征服 了 亚洲 。 从 那 时 起 ，“ 辟 开 戈 尔 迪 之 结 ” 意 味 厦 为 复杂 问题 找 出 聪明 的 解法 。 


用 现代 的 话说 ， 亚 历 山 大 找到 了 捷径 。 本 章 讨论 编程 中 的 捷径 。 


关于 真实 性 的 一 点 说 明 : 本 章 的 各 种 奇闻 轶 事 都 是 真 的 ， 只 在 约 默 程度 上 略 有 伟 张 《我 布 户 
大 家 能 看 出 来 )， 为 了 保护 当事人 ， 隐 去 了 一 些 真实 姓名 。” 


5.1 -小 测验 


这 个 小 测验 描述 了 来 目 真实 系统 的 3 个 经 典 问 题 : 分 类 、 数 据 传 输 和 随机 数 。 你 可 能 知道 一 
些 经 典 解法 ， 不 过 在 看 下 一 市 的 解答 之 前 ， 试 试看 能 不 能 找 出 更 漂 完 的 解法 。 


问题 1 一 一 分 类 。《 科 学 美国 人 》 杂 志 社 的 发 行 部 每 天 收 到 数 千 封 来 信 。 绝 大 部 分 米 信 归 入 以 
下 几 类 : 付 账 、 续 订 、 对 下 邮 促 销 的 回复 等 。 信 件 在 数据 录入 员 处 理 之 前 必须 分 类 。 请 描述 一 下 
邮件 分 类 方案 。 


问题 2 一 一 数据 传输 。1981 年 ， 洛 元 希 德 公司 在 加 利 福 尼 亚 州 桑 尼 维尔 市 的 工厂 的 一 群 工 程 
师 就 遇 到 了 这 个 问题 。 他 们 每 天 要 把 10 几 张 由 计算 机 辅助 设计 (CAD) 系统 生成 的 图 纸 从 工厂 送 
到 40 公 里 外 位 于 圣 克 和 鲁 斯 市 附近 的 山里 的 测试 站 去 。 叫 汽车 快递 服务 每 天 跑 单程 要 花 一 个 小 时 的 
时 间 《〈 由 于 交通 阻塞 和 山路 崎 贱 )， 花 费 100 美 元 。 请 提出 几 种 不 同 的 数据 传输 方案 ， 并 估计 每 一 
种 方案 的 费用 。 


问题 3 一 一 随机 取样 。 在 民意 调查 公司 取样 过 程 中 ， 有 一 个 步骤 要 从 一 个 打印 的 区 域 表 里 抽 
一 个 随机 子 集 。 手 工 处 理 要 化 上 一 小 时 来 查 随 机 数 表 ， 十 分 乏味 。 一 个 聪明 的 雇员 建议 ， 给 程序 
ANT RN AK OH ABA) 和 一 个 整数 MY (通常 是 几 十 )， 由 程序 输出 随机 选择 的 M 个 
区 域 的 列表 。 有 没有 更 好 的 解法 ? 





O 在 十 希腊 神话 中 ， 能 解 开 戈 尔 迪 之 结 者 就 可 以 当 亚 细 亚 之 王 ， 后 来 此 结 被 亚历山大 大 帝 解 开 。 
D 本 章 中 部 分 案例 和 习题 也 散 见于 《编程 珠 丽 》 一 书 中 。 一 一 编者 注 
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5.2 解答 


本 节 标题 为 “解答 ”， 看 起 来 好 像 我 认为 自己 知道 标准 答案 。 这 里 的 答案 应 该 不 错 ， 但 是 如 
果 有 其 他 更 好 的 解答 ， 我 也 不 会 感到 意外 。 


解答 1。 雇 员 可 以 手工 把 每 封 信 分 拣 到 几 个 箱子 中 ， 自 动 化 处 理 则 可 以 用 信件 处 理 机 来 做 这 
个 工作 。 这 两 种 解决 方案 都 花费 很 大 ， 所 以 杂志 社 让 邮局 来 做 这 个 工作 。 他 们 在 邮局 为 每 一 类 信 
件 申 请 了 一 个 不 同 的 信箱 号 ,结果 信件 按照 分 类 成 捆 地 送 到 杂志 社 来 。 每 个 信箱 一 年 只 花费 一 百 
美元 左右 ， 几 个 信箱 的 费用 总 和 远 远 低 于 雇员 一 年 的 薪水 。 


解答 2。 洛 死 布 德 的 小 组 起 初 考 虑 用 现成 的 微波 链 路 在 两 个 站 点 之 间 传 送 数据 ， 但 是 这 样 在 
测试 站 生成 图 纸 却 需要 一 全 昂贵 的 打印 机 。 他 们 最 终 的 解决 方案 是 : 在 主 厂 绘制 图 纸 并 拍照 ， 然 
后 把 35 澡 米 胶片 用 信和 驶 送 到 测试 站 ,在 那儿 进行 放大 并 用 现成 的 缩微 胶片 阅读 机 打印 出 来 。 信和 甬 
上 只 化 费 汽车 的 一 半 时 间 和 不 到 百 分 之 一 的 费用 〈 理 论 上 只 要 给 鸟 儿 喂食 就 行 了 )。16 个 月 过 去 了 ， 
ARA TILA ERA, 只 丢失 了 两 卷 (由 于 这 一 区 域 有 鹰 出 没 , 没有 让 信和 住 传 送 机 密 数 据 )。 


解答 3。 让 一 个 人 输入 几 百 个 地 名 ， 结 果 计 算 机 却 忽略 掉 其 中 的 绝 大 部 分 ， 这 很 不 人 道 。 于 
是 我 编号 了 一 个 程序 ， 用 户 输入 两 个 整数 M 和 N， 程 序 打印 出 从 1 到 NN 范围 内 的 MM 个 排 好 序 的 随机 
数 。 比 如 说 ， 如 果 M=5 且 N=100， 输 出 列表 可 能 是 这 样 的 : 


6 8 47 66 80 


然后 用 户 在 100 个 地 区 的 列表 中 ， 数 出 第 6、8、47、66 和 80 个 地 区 并 标记 为 选中 。 这 样 的 十 来 行 
程序 很 容易 编写 ， 调 查 员 争 相 使 用 。 在 第 13 章 中 将 见 到 类 似 功能 的 程序 。 


当 我 在 西点 军校 讲 起 这 个 问题 时 ， 一 个 军校 生 提出 了 更 好 的 办 法 。 要 抽取 MM 个 地 区 ， 只 要 复 
印 地 区 列表 ， 用 裁 纸 机 把 复印 件 切 成 等 长 的 纸 条 ， 在 大 纸袋 里 摇 匀 纸 条 ， 然 后 抽出 M 个 纸 条 。 这 
个 解法 实现 起 来 很 快 ， 只 要 袋子 摇 得 足够 好 ， 结 果 就 足够 随机 。 


5.3 提示 


对 于 表面 小 测验 中 的 每 个 问题 ， 只 要 一 点 简单 的 洞察 力 就 能 化 难为 易 。 为 遇 到 的 困难 问题 寻 
找 人 简明 解法 时 ， 可 以 从 下 面 几 个 角度 思考 。 


什么 是 用 户 真正 的 需求 。 一 个 运筹 学 者 接 到 任务 ,设计 某 座 大 楼 的 电梯 调度 策略 ， 使 乘客 等 
竺 时 间 最 短 。 在 走访 了 这 座 大 楼 之 后 ， 他 认识 到 雇主 真正 想 要 解决 的 问题 ， 是 尽量 减少 乘客 的 不 
适 《〈 乘 客 不 喜欢 等 电梯 )。 他 这 样 解 决 问题 : 在 每 部 电梯 附近 装 上 几 面 镜子 。 乘 客 在 等 电梯 时 ， 
可 以 目 我 欣 芝 一 下 ， 对 电梯 速度 的 抱怨 就 大 幅 减少 了 。 他 发 现 了 用 户 真 正 的 需求 。 


这 个 技巧 略 加 改变 , 惫 常 可 以 用 来 把 速度 慢 的 程序 变 成 让 用 户 还 可 以 接受 。 我 曾经 写 过 一 个 
微机 程序 ， 要 花 两 个 小 时 处 理 1000 条 记录 ， 所 以 在 处 理 每 条 记录 时 都 打印 一 条 消息 ， 比 如 : 








53 提示 45 


Processing record 597 of 985 


由 于 每 条 记录 花费 的 时 间 差 不 多 ,用 户 可 以 相应 地 安排 目 己 的 时 间 。 我 相信 ,这样 一 个 程序 比 
速度 快 一 倍 却 不 告诉 用 户 什么 时 候 结束 的 程序 更 令 用 户 觉得 舒服 。 用 户 要 求 可 预测 性 其 于 要 求 速度 。 


一 次 我 劝说 一 家 公司 ， 把 陈旧 的 7X 9 点 阵 打印 机 换 成 漂亮 的 菊 轮 式 打印 机 。 那 家 公司 立即 拒 
绝 了 我 的 建议 , 说 目前 打印 机 的 输出 能 清晰 地 体现 “计算 机 ”的 权威 感 ， 而 新 打印 机 那 种 美观 的 
输出 看 起 来 像 是 某 个 人 打出 来 的 。 用 户 要 的 是 权威 感 ， 而 不 是 美感 。 出 于 类 似 的 动机 ， 有 些 编译 
器 报告 “this program contains 1 errors” 以 提醒 用 户 : 计算 机 是 很 笨 的 ?。 


知 中 了 用 户 的 真正 需求 ， 并 不 总 能 把 事情 变 得 更 容易 。 如 果 需 求 说 明 是 要 确保 ; 
XU] < XB] < xB) < … < XIN 
你 可 以 使 用 简单 程序 


for I := 1 to N do XII] := I 


或 者 更 加 简洁 的 代码 


N:= 0 
如 果 你 知道 用 户 真 正 的 需求 是 给 数组 排序 ， 那 这 两 个 程序 基本 没有 什么 用 处 。 


成 本 与 收益 。 在 采纳 一 个 解决 方案 之 前 ， 要 了 解 其 成 本 与 收益 。 如 果 一 个 程序 被 很 多 人 频繁 
EH, 那么 程序 员 值 得 花 时 间 来 编写 出 色 的 文档 ， 如 果 这 个 程序 只 运行 一 次 ,这 么 做 就 得 不 偿 失 
了 。 很 多 看 似 值得 做 的 工作 也 并 不 总 是 值得 去 做 : 让 一 位 小 说 家 为 购物 清单 而 字 其 句 酌 就 是 轧 夺 的 。 


大 多 数 问 题 都 有 不 少 潜在 的 解决 方案 。 举 个 例子 ， 就 说 汽车 交通 事故 伤 人 的 问题 。 我 们 可 以 
用 很 多 方法 避免 事故 的 发 生 ， 比 如 驾驶 培训 、 严 格 限 速 、 严 惩 酒 后 驾车 以 及 建立 良好 的 公共 交通 
环境 。 万 一 事故 真 的 发 生 了 ， 我 们 还 可 以 通过 设计 乘客 隔 间 、 系 安全 带 、 装 备 气 训 等 方式 减少 伤 
者 。 万 一 真 的 有 伤 者， 我 们 还 可 以 通过 现场 急救 、 直 升 机 救护 、 急 救 中 心 以 及 外 科 手 术 等 方法 减 
轻 伤 者 的 伤势 。 我 们 应 该 统筹 其 中 所 有 方案 的 成 本 与 收益 ,而 不 是 把 过 多 的 资金 花费 在 某 个 解决 
方案 上 。 


别 把 问题 弄 得 太 复杂 。 有 这 样 一 个 经 典 问 题 : 如 何 使 用 气压 计 测量 大 楼 的 高 度 。 答 案 可 能 
很 多 ， 你 可 以 选择 从 楼 顶 把 气压 计 扔 下 来 并 测定 其 下 落 的 时 间 , 还 可 以 用 这 个 气压 计 贿赂 管理 员 
来 看 大 厦 的 图 纸 。 把 这 个 问题 改 成 一 个 现代 版 ;: 如 何 用 一 台 个 人 电脑 来 弥补 账户 的 亏空 ? 一 个 直 
堆 了 当 的 解决 方案 就 是 卖 掉 电 脑 ， 然 后 把 钱 存 进 账户 。 


Peter Denning 认为 许多 计算 机 处 理 的 任务 手动 解决 起 来 更 简单 ，“ 当 我 要 查找 自己 的 日 程 





© 正确 的 英文 应 当 是 “1 error”( 单 数 词尾 )， 而 不 是 “1 errors”( 复 数 词 尾 )。 一 一 译 者 注 
@ Peter Denning(1942 一 )， 著 名 计算 机 科学 家 ， 在 操作 系统 领域 成 就 颇 丰 。 曾 担任 ACM 主 席 以 及 许多 ACM 期 刊 的 
主编 。 一 一 编者 注 
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约会 的 时 候 ， 看 墙 上 的 挂历 比 打开 电脑 、 插 入 软盘 、 读 取 档 案 、 启 动 日 历程 序 快 多 了 。 对 于 管理 
卷宗 也 有 类 似 的 问题 。 作 为 期 刊 主编 , 我 个 人 使 用 的 论文 资料 管理 系统 无 非 是 一 个 文件 柜 和 简单 
的 活页 本 。 有 了 这 些 ， 我 可 以 迅速 地 找到 各 种 论文 、 审 稿 人 以 及 修订 等 的 最 新 消息 。 这 些 比 我 见 
到 过 的 那些 其 他 编辑 所 使 用 的 任何 计算 机 系统 都 更 如 有 效 。 把 我 的 东西 放 到 计算 机 上 面 只 能 使 它 
变 慢 。 没 有 电脑 ， 我 可 以 更 快 地 解决 我 的 问题 。” 


计算 机 为 许多 困难 的 问题 提供 了 点 越 的 解决 方案 , 然而 计算 机 绝 不 是 万 能 的 。 聪明 的 程序 员 
总 是 把 剑 放 在 家 里 ， 用 信和 多 、 邮 局 、 纸 袋 或 活页 本 来 臂 开 葬 尔 迪 之 结 。 | 


别 把 问题 想 得 太 简单 。 在 Polya 的 大 作 How to Solve I 中， 他 指出 “更 一 般 的 问题 可 能 更 容易 
处 理 ”， 他 把 这 种 现象 称 作 发 明 家 悖 论 。 我 们 可 以 写 一 个 程序 来 排列 从 4 到 G 的 几 个 变量 值 ， 使 
得 

AxBS CS DS ES FSG 
然而 把 这 几 个 变量 复制 到 一 个 数组 X 中 并 调用 一 个 通用 的 排序 程序 ， 再 把 值 复制 回来 则 更 简单 。 


用 正确 的 方法 使 用 正确 的 工具 。 当 一 个 男人 抱怨 说 自己 刚 花 了 半 个 小 时 来 写 一 个 给 送 奶 工 的 
便条 时 ， 他 的 妻子 建议 他 下 次 事先 写 好 便条 再 放 进 牛奶 瓶 里 。UNIX 程 序 tz 会 将 输入 文件 中 的 某 
些 特 定 字符 全 部 替换 为 另外 一 些 字 符 ， 并 复制 到 其 输出 中 。 一 个 同事 发 现下 面 这 样 一 个 程序 将 花 
费 我 们 系统 大 量 的 时 间 。 

tr a A <input >templ 


tr b B <templ >temp2 
tr c C <temp2 >templ 





tr z Z <templ >output 
remove tempi temp2 


程序 员 其 实 是 想 把 所 有 的 小 写字 母 都 转换 成 大 写字 母 。 最 后 他 终于 用 下 面 的 命令 更 简单 更 有 
效 地 完成 了 目 己 的 工作 。 


tr a-z A-Z <input >output 
如 果 一 个 程序 看 上 去 过 于 笨拙 ， 那 么 请 党 试 更 简单 的 解决 方案 。 


你 拿 什 么 奖赏 我? 辉煌 通常 是 一 种 个 体 行为 , 而 不 可 思议 的 思春 却 往往 来 源 于 某 个 组 织 的 行 
为 。 一 个 很 火 的 西部 题材 小 说 作家 曾 坦言 说 ， 由 于 过 去 他 的 稿费 是 按照 字数 付 的 ， 小 说 的 主人 公 
总 是 要 中 上 六 颗 子 弹 才 死 。 如 果 程 序 员 也 按照 程序 的 行 数 来 拿 工 资 的 话 , 你 认为 把 数组 X[1..1000] 
初始 化 为 零 的 程序 要 怎么 与 呢 ? GER: 如 果 按 照 对 程序 的 改进 加 速 来 给 程序 员 付 工 资 的 话 ， 那 
程序 员 就 会 在 一 开始 写 出 尽 可 能 慢 的 程序 ; 如 果 要 求 测试 时 执行 的 分 支 达到 一 定 的 百分比 ， 则 程 
序 中 会 有 相当 一 部 分 在 执行 if true then.. .之 类 的 语句 。) 


O 该 书 中 译 版 已 由 上 海 科 技 教育 出 版 社 出 版 ， 中 文书 名 《怎样 解 题 》。 一 一 编者 注 
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我 有 -一 个 在 大 公司 里 工作 的 程序 员 姑 友 , 他 刚刚 使 某 程序 节省 了 25% 的 运行 时 间 , 欣喜 若 狂 。 
本 来 这 个 程序 每 天 都 要 在 超级 计算 机 上 面 运行 两 个 小 时 ， 他 改 了 其 中 差不多 10 行 代码 ， 就 使 得 程 
序 减 少 了 半 个 小 时 的 运行 时 间 ， 从 而 每 天 节省 了 数 百 美元 。 他 兴 冲 冲 地 跑 去 计算 中 心 告诉 大 家 
SRP SET AS» 说 他 们 最 大 的 计算 引擎 上 面 每 天 多 出 了 额外 的 半 个 小 时 时 间 。 然 而 出 乎 意料 的 是 ， 
他 看 到 了 一 群 垂头丧气 的 人 。 由 于 公司 的 内 部 账 务 制度 ， 这 一 改变 导致 计算 中 心 每 年 损失 大 约 
100 000 美 元 。 这 个 公司 目 号 的 组 织 制 度 就 不 鼓励 有 效 利 用 这 数 百 万 美元 的 设备 。 


我 们 一 直 都 是 这 么 干 的 。20 年 来 ， 一 家 工厂 坚持 在 它 的 畅销 产品 调 速 轮 上 面 打 一 个 小 孔 。 钻 
这 个 孔 要 花 不 少 钱 , 于 是 工程 师 们 开始 寻找 更 便宜 的 打 和 孔 方 法 。 后 来 工程 小 组 问 为 什么 调 速 轮 上 
面 要 有 一 个 孔 ， 却 得 到 了 一 个 模板 式 的 回答 : “一 直 都 是 那样 的 。” 小 组 成 员 显 然 不 肯 接 受 这 种 
答案 。 最 终 他 们 发 现 这 个 调 速 轮 的 早期 设计 原型 的 质心 略 有 些 不 平衡 ， 所 以 设计 者 在 偏重 的 -一面 
打 了 一 个 小 孔 以 取得 平衡 。20 年 过 去 了 ， 这 一 修改 反 到 使 得 今天 的 零件 不 平衡 了 。 工 程 小 组 决定 
齿轮 上 不 打 孔 ， 这 不 仅 使 其 造价 更 便宜 ， 而 且 调 速 轮 的 性 能 更 好 了 。 


仅 抑 一 本 “我 们 -南都 是 这 么 干 的 ”就 放弃 寻找 更 好 的 解决 方案 ， 这 真 让 人 气 银 ， 然 而 当 管 
理 者 因为 同样 的 理由 而 拒绝 你 的 更 好 的 新 方案 时 ， 则 更 让 人 觉得 更 糟 。(C 有 些 公司 仍然 在 用 这 样 
的 借口 来 用 汇编 语言 编号 大 型 程序 ， 而 拒绝 高 级 程序 设计 语言 。) 只 能 祝愿 这 些 人 早日 脱离 思维 
定 舅 了 ， 不 过 不 要 环 了 来 自 竞 争 对 手 的 压力 。 可 以 用 这 样 一 句 话 解释 大 学 里 面 存在 的 官僚 作风 : 
“我 们 学 院 成 立 了 两 百年 ， 从 未 在 任何 事情 上 做 首次 尝试 。” 


从 游戏 中 获 益 。 刚 上 大 一 时 我 学 习 了 二 分 搜索 和 汇编 语言 编程 。 出 于 个 人 兴趣 以 及 进一步 学 
习 的 目的 , 我 用 汇编 语言 实现 了 一 个 通用 的 二 分 搜索 程序 。 我 后 来 在 数据 处 理 中 心 做 了 一 份 兼 职 ， 
网 去 那儿 个 星期 , 直到 有 一 个 作业 的 运行 被 取消 了 ， 因 为 操作 员 分 析 它 的 运行 时 间 差 不 多 要 两 个 
小 时 。 我 们 发 现 该 程序 的 大 量 时 间 都 花费 在 一 个 顺序 搜索 上 面 , 用 我 的 二 分 搜索 程序 替换 原来 的 
调用 后 ， 程 序 不 到 十 分 钟 就 运行 完了 。 


此 后 我 不 止 一 次 地 见 到 今天 的 某 个 玩具 在 下 个 星期 就 派 上 了 用 场 , 在 下 一 年 就 变 成 了 一 个 产 
呈 。1985 年 9 月 的 《科学 美国 人 》 和 杂志 上 ，Kee Dewdney 为 我 们 描述 了 贝尔 实验 室 的 氛围 ， 在 那 
里 你 很 难 区 分 什么 是 工作 ， 什 么 是 游戏 。( 我 的 老板 们 甚至 认为 撰写 这 些 文章 是 一 种 工作 ， 而 对 
于 我 来 讲 ， 这 则 是 无 上 的 快乐 。) 举例 来 说 吧 ， 我 的 一 个 同事 曾经 为 了 画 一 个 机 器 人 向 后 翻 筋 斗 
的 图 ,专门 花 一 个 星期 开发 了 一 套 彩 色 图 形 系 统 。 几 个 月 后 ， 一 位 化 学 家 用 这 套 系统 为 大 家 展示 
分 子 结构 。 那 些 组 成 机 器 人 身体 的 金属 球 变 成 了 分 子 中 的 原子 。 花 几 分 钟 考虑 把 现 有 的 工具 应 用 
于 新 的 任务 是 很 值得 的 ， 或 许 就 能 省 去 了 重新 构造 系统 的 成 本 。 


5.4 ”原理 
本 章 中 的 故事 大 多 遵循 同样 的 情节 : 主人 公 总 是 很 懒惰 ， 不 肯 用 难 的 方法 解决 问题 ,最终 找 
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到 了 一 种 简单 的 方案 。Bob Martin” 说 得 好 : “去 对 付 问题 ， 而 不 是 对 付 程 序 。” 
55 习题 


l. 


曾经 有 人 要 我 写 一 个 程序 ， 把 一 个 特定 的 数据 集 从 一 台 个 人 电脑 传送 到 另外 一 台 体 系 结构 地 
措 的 个 人 电脑 。 通过 几 次 提问 , 我 了 解 到 要 传输 的 文件 只 有 400 条 记录 , 每 条 记录 有 20 位 数字 。 
要 是 你 会 怎么 办 呢 ? 


2. 一 位 新 研究 员 向 托马斯 。 爱 迪生 报到 ， 爱 迪生 请 他 计算 一 下 灯泡 的 体积 。 经 过 数 个 小 时 的 测 


3. 


量 和 计算 ， 新 研究 员 回 来 报告 说 灯泡 的 体积 大 概 是 150 立 方 厘米 。 不 到 一 分 钟爱 迪生 就 计算 得 
出 了 “更 接近 155” 的 结论 。 爱 迪生 是 怎么 做 到 的 ? 


为 了 组 织 一 次 实验 ， 一 位 心理 学 家 需要 产生 3 个 观察 者 和 3 种 压力 级 别 高、 中 、 低 ) 的 随机 
排列 。 经 过 讨论 ， 我 们 一 致 认为 程序 的 输出 应 该 是 下 面 的 形式 : 

1 3L 2M iH 

2 3H 1M 2L 


3 1L 2H 3M 
4 1M 2L 3H 


第 一 行 换 述 1 号 主题 ， 首 先 被 轻 度 压力 状态 的 3 号 观察 者 看 到 ， 然 后 是 中 度 压 力 的 2 号 观察 者 ， 
最 后 是 融 度 压力 状态 下 的 1 号 观察 者 。 


我 一 看 到 六 个 题 明 就 迅速 地 草拟 了 一 个 程序 。 一 个 6 个 元 素 的 数组 包含 了 {1, 2, 3} 的 全 部 排列 ， 
男 外 的 一 个 6 元 素数 组 则 包含 了 {L, M, H} 的 全 部 排列 。 程 序 随机 地 从 二 者 中 各 抽 一 个 ,然后 把 
它们 拼接 起 来 并 打印 。 如 果 是 你 ， 你 会 如 何 生成 这 些 随机 排列 呢 ? GER: 我 们 通常 用 什么 
方法 从 6 个 对 象 中 随机 生成 一 个 ? ) 


:下列 代码 在 数组 区 1..M] 中 寻找 与 点 B 最 接近 的 点 ; 


BestDist := Infinity 
for I := 1 to N do 
ThisDist := sqrt((A[I].X ~ P.X)**2 + (A[I].Y - P.Y) **2) 
if ThisDist < BestDist then 
BestDist := ThisDist 
BestPoint := I 


7.2 市 的 统计 表明 ，sqrt 子 程序 是 整个 程序 的 时 间 瓶 颈 。 请 找到 一 种 令 代 码 运行 更 快 的 方法 。 


5. 请 评价 下 面 例子 中 解决 问题 的 方法 。 


®© Robert Martin， 著 名 软件 工程 师 和 技术 顾问 。ObjectMentor 公 司 创始 人 和 总 裁 。 兽 任 C++ Report 杂 志 的 主编 。 扎 
写 了 名 著 《 敏 捷 软 件 开发 ， 原 则 、 模 式 与 实践 》( 有 Java 及 C# 版 ， 人 民 邮 电 出 版 社 ，2010)。 编者 注 
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a. 两 个 人 被 一 只 能 追赶 , 甲 停 下 来 穿 上 跑鞋 。“ 你 这 个 笨蛋 , ” 乙 说 , “你 不 可 能 跑 过 熊 的 。” 
甲 回答 ， “我 不 需要 跑 过 能 ， 只 要 能 跑 过 你 就 行 了 。” 

b. 问题， 你 被 能 追赶 的 话 会 怎么 办 ? 假定 你 不 知道 那 是 只 黑 能 还 是 灰 能 。 
WA. MELA. WRIA, CSIR SNL, MRR IRR, ESR 
倒 ， 然 后 追 你 。 


5.6 ”深入 阅读 


在 众多 讨论 问题 解决 方案 的 书 中 ， 我 最 言 欢 James L. Adams 的 Conceptual Blockbusting 一 书 
《第 2 版 由 Norton 在 1979 年 出 版 )。Adams 把 概念 屏障 定义 为 “阻止 问题 求解 者 正确 认识 问题 或 构 
思 解 决 方案 的 精神 壁 全 ”。 他 精彩 的 著作 鼓励 你 去 打破 这 个 屏障 。 


这 些 书籍 中 存在 的 一 个 问题 是 ， 艇 统 的 问题 太 多 ， 导 致 与 具体 的 技术 领域 相 分 离 ， 从 而 变 得 
“ 仪 仅 就 是 一 个 迹 题 ”。 我 尝试 在 我 的 《编程 球 丽 》(Addison-Wesley 出 版 社 1986 年 出 版 ) 一 书 
中 改变 这 一 现象 ,该 书 把 编程 细节 交织 在 那些 为 重大 、 困 难 的 问题 寻求 简单 的 解决 方案 的 故事 里 。 
请 特别 注意 以 下 索引 项 ; 常识 (common sense). WRR (conceptual blocks)、 优 雅 (elegance). 
工程 技术 (engineering techniques )、 润 察 力 (insight)、 发 明 家 悖 论 (Inventor’s Paradox)、 问 题 定 
X. (problem definition〉 和 简单 性 (simplicity )。 


5.7 调试 (边栏 ) 


程序 员 都 知道 ， 调 试 是 很 困难 的 。 所 幸 困 难 的 调试 问题 往往 有 简单 的 解决 方案 。 从 设计 清理 
小 铺 误 的 测试 到 修补 不 能 正常 工作 的 程序 片段 ， 都 可 以 算 作 是 调试 。 我 们 关注 的 只 是 这 个 问题 的 
一 小 部 分 : 当 我 们 观察 到 程序 古怪 的 行为 时 ， 如 何 确定 引发 问题 的 根源 ? 


好 的 调试 者 总 能 让 调试 工作 看 起 来 很 简单 。 郁 闽 的 程序 员 追 踪 了 几 个 小 时 也 未 能 找到 来 源 的 
一 个 错误 ,编程 大 师 只 消 问 上 他 们 三 四 个 问题 ,不 过 三 分 钟 就 会 把 光标 定位 在 错误 的 代码 上 。 调 
试 专家 坚信 ， 一 个 问题 无 论 看 起 来 多 么 神秘 诡异 ， 却 总 是 可 以 从 风 辑 上 来 挖 据 的 。 


我 们 用 IBM Yorktown Heights 研 究 中 心 的 一 个 故事 来 解释 这 种 观点 吧 。 一 个 程序 员 刚 刚 安装 
了 一 台新 的 计算 机 终端 。 当 他 坐 在 椅子 上 的 时 候 ， 系 统一 切 正常 ， 而 站 起 来 的 时 候 ， 就 无 论 如 何 
也 没 办 法 登录 系统 。 这 一 现象 是 百分之百 可 以 重 现 的 : 他 站 起 来 就 铁定 登 不 进 系统 ， 坐 下 了 就 铁 
定 能 行 。 

我 们 听 到 这 个 故事 的 时 候 ， 无 不 感到 惊异 ; 这 见鬼 的 终端 怎么 可 能 知道 这 个 可 怜 的 孩子 到 底 
是 坐 看 还 是 站 着 昵 ?然而 ,优秀 的 调试 者 知道 ， 这 其 中 一 定 有 原因 。 我们 很 容易 想到 用 电学 理论 
进行 假设 : 地 毯 下 面 有 一 条 线路 松动 了 ， 抑 或 是 有 静电 感应 ? 然而 这 些 电磁 问题 很 少 能 够 百 分 之 





O 边栏 是 《ACM 通 讯 》 中 游离 于 专栏 正文 之 外 的 部 分 ， 通 常 被 排版 在 页 面 边 上 的 一 条 里 。 它 们 本 质 上 并 非 专栏 的 
一 部 分 ， 只 是 提供 对 于 材料 的 一 些 观 点 。 在 本 书 中 ， 它 们 作为 各 章 的 最 后 一 节 出 现 ， 用 (边栏 ) 来 标记 。 
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HEERKE. “LAI fT FAHAT — 7S EY a, aS A 
看 的 时 候 到 底 都 是 怎么 登录 的 呢 ? 能 不 能 为 我 们 现场 表演 一 下 ? 原来 问题 出 在 终端 的 键盘 上 : 键 
盘 上 两 个 键 幅 的 位 置 题 倒 了 。 当 这 位 程序 员 坐 下 的 时 候 ， 他 是 盲 打 的 ， 根 本 就 没有 注意 到 这 个 问 
蝇 。 而 他 一 站 起 来 承受 了 这 个 错误 的 误导 。 


在 之 加 哥 的 一 次 ACM 分 会 会 议 上 , 我 听 到 了 这 样 一 个 故事 。 有 一 个 已 经 用 了 很 长 时 间 的 APL 

编写 的 银行 系统 ， 当 人 们 第 一 次 用 它 来 处 理 一 些 国 外 的 数据 时 ， 系 统 莫 名 奇妙 地 退出 了 。 程序 员 

们 花 了 好 多 天 查找 源码 ,但 却 找 不 到 任何 一 条 可 以 导致 退出 程序 并 返回 操作 系统 的 错误 指令 。 深 

入 地 考察 这 个 问题 后 ,他 们 发 现 这 个 问题 发 生 在 程序 处 理 厄 瓜 多 尔 的 数据 时 : 用 户 输入 其 首都 基 
多 (Quito”)， 程 序 自动 识别 该 指令 为 退出 请 求 ， 就 此 退出 程序 ! 


在 上 面 两 个 案例 中 ， 正确 的 问题 把 聪明 的 程序 员 引 向 了 程序 错误 的 所 在 : “你 在 站 着 输入 和 
坐 看 输入 时 做 的 有 什么 不 同 吗 ? 我 能 看 看 你 都 是 怎么 做 的 吗 ? ”“ 在 程序 退出 之 前 , 你 到 底 输入 
TA?” 
我 看 过 的 最 好 的 讲 调试 的 书 就 是 Berton Roueché 编 写 的 两 卷 The Medical Detectives. 第 一 卷 是 
1982 年 Washington Square 出 版 社 出 版 的 平装 本 ， 第 二 卷 则 是 在 1986 年 出 版 的 。 书 中 的 主人 公 在 复 
杂 的 系统 中 寻找 问题 ， 这 些 系统 可 以 是 咯 微 有 点 问题 的 人 也 可 以 是 问题 严重 的 城市 。 他 们 用 于 解 
决 问题 的 方法 都 可 以 直接 应 用 于 计算 机 系统 调试 。 这 些 真 实 的 故事 就 和 小 说 一 样 吸引 人 。， 


© Quito 的 前 4 个 字母 Quit 对 应 的 英文 意 为 “退出 ”。 





tPA 


Bee is fis rho Se Pe BAY [A] AY. EE, “Ree Ree ORR, ABE Ab — 
万 条 记录 要 多 少时 间 ? 用 除法 一 算 ， 我 们 就 知道 要 花 10 000 秒 ， 按 每 小 时 3600 秒 计算 ， 差 不 多 3 
个 小 时 。 


然而 一 年 又 有 多 少 秒 呢 ?如 果 我 直接 告诉 你 ， 一 共有 3.155X10" 秒 ， 你 可 能 很 快 就 忘 了 。 事 
实 上 ， 要 记 住 这 个 很 简单 ， 在 误差 不 超过 0.5% 的 约束 下 : 


T 秒 就 是 一 个 纳 世 纪 . 
一 一 Tom Du 他， 贝尔 实验 宝 


所 以 ， 如 果 你 的 程序 要 运行 107 秒 ， 你 就 要 准备 等 上 4 个 月 。 


1985 年 2 月 的 《ACM 通 讯 》 曾 癌 读 者 征集 与 计算 有 关 的 一 句 话 篇 言 。 读 者 来 稿 中 有 一 些 是 没 
争议 的 ， 比 如 Du 多 法 则 就 是 一 种 很 方便 的 记忆 常数 的 方法 。 而 下 面 这 个 关于 程序 测试 方法 的 法 
则 中 的 数字 则 不 那么 绝对 了 《回归 测试 方法 保存 老 版 本 的 输入 /输出 数据 ， 以 确保 新 版 本 程序 能 
得 出 同样 的 输出 )。 


回归 测试 能 将 测试 区 间 减 半 。 
一 一 Larry Bernstein， 贝 尔 通信 研究 院 


Bermnstein 的 观点 中 所 说 的 数 可 能 是 30% 也 可 能 是 70%， 然 而 可 以 确定 的 是 ， 这 些 测 试 节约 了 开发 
时 间 。 


不 怎么 定量 的 忠告 也 存在 问题 。 相 信 大 家 都 会 同意 
小 别 胜 新 婚 . 


但 也 说 
眼 不 见 ， 心 不 烦 。 
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最 后 这 句 话 对 每 个 人 都 适用 , 对 这 些 话 本 身 则 不 适用 。 本 章 中 的 很 多 篇 言 也 存在 类 似 的 矛盾 。 

尽管 每 名 话 都 有 真理 存 三 ， 我 们 还 是 应 该 有 所 保 留 地 看 竺 它们 。 
关于 这 些 艇 言 的 出 处 ， 我 不 得 不 声明 一 下 。 复 言 下 的 名 字 基 本 上 都 是 最 早 把 这 句 话 发 给 我 的 
人 ， 即 使 事实 上 这 和 句 话 可 能 出 自 于 他 们 的 党 兄弟 。 在 一 些 地 方 我 列 出 了 更 早 的 参考 文献 以 及 作者 
的 单位 (1985 年 9 月 时 的 情况 , 那 正 是 本 章 内 容 最 初 发 表 的 时 候 )。 我 知道 我 这 样 做 对 不 起 那些 最 
时 说 出 这 人 句 话 的 人 ， 我 只 能 用 下 面 这 人 句 话 表达 遗憾 了 : 
SH PPR RMB YR. 


闲话 不 说 了 ， 我 直接 把 这 些 熊 言 分 成 几 个 大 类 ， 依 次 列 出 来 。 
6.1 编码 


如 果 还 没 想 清楚 ， 就 用 蛮 力 算法 吧 . 


不 要 使 用 反正 弦 和 反 余弦 函数 
更 好 地 解决 这 些 问题 ， 








Ken Thompson， 贝 尔 实 验 室 
你 总 能 用 优美 的 恒等式 , 或 者 是 计算 向 量 点 积 来 





Jim Conyngham，Arvin/Calspan 高 级 技术 中 心 


在 存储 日 期 中 的 年 份 的 上 时候， 请 使 用 四 位 数字 : 千 禧 年 快要 到 了 ， 
避免 不 对 称 结构 


一 一 David Martin， 宾 夕 法 尼 亚 州 诺 里 斯 敦 
一 一 Andy Huber, Data General 公 司 

代码 号 得 越 急 ， 程 序 跑 得 越 慢 ， 

你 用 英语 都 写 不 出 来 的 东西 就 别 指望 用 代码 写 了 . 


一 一 Roy Carlson， 威 斯 康 星 大 学 
注意 





Peter Halpem， 纽 约 州 布鲁克 林 





Peter Weinberger, J 
如 果 代 码 和 注释 不 一 致 ， 那 很 可 能 两 者 都 错 了 。 





Norm Schryer， 贝 尔 实 
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如 果 你 发 现 特殊 情况 太 多 ， 屠 你 肯定 是 用 错 方法 了 。 
一 一 Craig Zerouni, Computer FX 公司 (英国 伦敦 ) 


先 把 数据 结构 摘 清 楚 ， 程 序 的 其 余部 分 自 现 。 





David Jones， 荷 兰 阿 森 


6.2 用 万 界面 
【最 小 惊异 原则 】 尽 可 能 让 用 户 界面 风格 一 致 和 可 预测 。 
-一 一 几 位 读者 提出 
计算 机 生成 的 输入 通常 会 让 一 个 原本 设计 接受 手工 输入 的 程序 不 堪 重 负 。 
Dennis Ritchie， 贝 尔 实验 室 





手工 填写 的 表单 中 有 20% 都 包含 坏 数 据 。 





— Vic Vyssotsky， 贝 尔 实验 室 


80% 的 表单 会 要 你 回答 没有 必要 的 问题 ， 





Mike Garey， 贝 尔 实验 室 


不 要 让 用 尸 提供 那些 系统 已 经 知道 的 信息 。 





Rick Lemons，Cardinal 数 据 系 统 公 司 
所 有 数据 集 的 80% 中 ， 有 95% 的 信息 量 都 可 以 用 清晰 的 图 表示 。 
一 一 William S. Cleveland， 贝 尔 实验 室 
6.3 ”调试 
在 我 所 有 的 程序 错误 中 ，80% 是 语法 错误 。 科 下 的 20% 里 ，80% 是 简单 的 逻辑 错误 。 
在 剩 下 的 4% 里 ，809% 是 指针 错误 。 只 有 余下 的 0.8% 才 是 困难 的 问题 . 
Marc Donner, IBMI Pos 


在 系统 测试 阶段 找 出 并 修正 错误 , 要 比 开发 者 自己 完成 这 一 工作 多 付出 2 倍 的 努力 。 
而 当 系 统 已 经 交付 使 用 之 后 找 出 并 修正 一 个 错误 , 要 比 系统 测试 阶段 多 付出 9 倍 的 努力 。 
因此 ， 请 坚持 让 开发 者 进行 单元 测试 吧 。 








Larry Bernstein, N 尔 通信 研究 院 
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不 要 站 着 调试 程序 。 那 会 使 得 你 的 耐心 减 半 ， 你 需要 的 是 全 神 贯 注 。 
Dave Storer, ÅA R MARJA H 
注释 很 可 能 会 误 乎 你 的 ， 你 要 调试 的 只 是 代码 。 
Dave Storer， 艾 奥 瓦 州 锡 达 拉 皮 北 
测试 只 能 证 明 程 序 有 错误 ， 而 不 能 证 明 程序 没有 错误 。 

一 一 Edsger W. Dijkstra， 得 克 萨 斯 大 学 
新 系统 的 每 一 个 新 用 户 都 可 能 发 现 一 类 新 的 错误 、 





别 在 注释 里 陷 得 太 深 








—— Brian Kemighan， 贝 尔 实验 室 
东西 没 坏 ， 就 别 乱 修 。 
一 一 罗 纳 德 里根， 加 州 圣 巴 巴 拉 
【维护 者 和 驴 言 】 如果 我 们 没 能 力 修好 它 ， 我 们 就 会 告诉 你 它 根本 就 没 坏 。 
一 一 Walt Weir， 美 国 陆 军 中 校 
修正 程序 错误 的 第 一 步 是 要 先 重 现 这 个 错误 。 





Tom Duff， 贝 尔 实 验 室 
6.4 性 能 

【程序 优化 第 一 法 则 】 不 要 优化 。 

【程序 优化 第 二 法 则 一 一 仅 对 专家 适用 】 还 是 不 要 优化 。 


Michael Jackson, Michael Jackson 系 统 公 司 





对 于 那些 快速 算法 ,我 们 总 是 可 以 拿 一 些 速度 差不多 但 是 更 容易 理解 的 算法 来 替代 
它们 。 





Douglas W. Jones, X#HAAF 


在 一 些 机 器 上 ， 间 接 寻 址 比 基 址 寻 址 要 慢 ， 所 以 请 把 结构 体 或 记录 中 最 常用 的 成 员 
放 在 最 前 面 。 





Mike Morton， 马 萨 诸 塞 州 波士顿 
在 一 个 非 VO 密 集 型 的 程序 中 ， 超 过 一 半 的 运行 时 间 是 花 在 不 足 4% 的 代码 上 的 。 


Don Knuth， 斯 坦 福 大 学 
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在 优化 一 个 程序 之 前 ， 请 先 用 性 能 监视 工具 找到 程序 的 “热点 ”。 
一 一 Mike Morton, H ÈRA IAH 


【代码 规模 守恒 定律 】 当 你 为 了 加 速 ， 把 一 页 代码 变 成 几 条 简单 的 指令 时 ， 请 不 要 
忘 了 增加 注释 ， 以 使 源码 的 行 数 保持 为 一 个 常量 。 


一 一 Mike Morton， 马 萨 诸 塞 州 波士顿 


如 果 程 序 员 自己 模拟 实现 一 个 构造 比 编译 器 本 身 实 现 那 个 构造 还 要 快 , 那 编译 器 的 
作者 也 太 失 败 了 。 





Guy L. Steele, Jr., Tartan žE 


要 加 速 一 个 IO 密集 型 的 程序 ， 请 首先 考虑 所 有 的 LO。 消除 那些 不 必要 的 或 宛 余 的 
/JO， 并 使 余下 的 部 分 尽 可 能 地 快 。 





David Martin， 宾 夕 法 尼 亚 州 诺 里 斯 敦 
最 快 的 IO 就 是 不 IO。 





Nils-Peter Nelson, I RAE 


那些 最 便宜 、 最 快 而 且 可 靠 性 最 高 的 计算 机 组 件 压根 儿 就 不 存在 。 


Gordon Bell，Encore 计 算 机 公司 





大 多 数 的 汇编 语言 都 有 循环 操作 ,用 一 条 机 器 指令 进行 一 次 比较 并 分 支 ， 尽管 这 
指令 是 为 循环 设计 的 ， 但 在 做 普通 的 比较 时 往往 也 能 派 上 用 场 ， 而 且 很 有 效 ， 


一 一 Guy L.，Steele，Jr.，Tartan 实 验 宝 


【编译 右 作 者 租 言 一 优化 步骤 】 把 一 个 本 来 就 错 了 的 程序 变 得 更 错 绝 不 是 你 的 错 。 
Bill McKeeman， 王 安 公司 





电 每 纳 秒 传播 一 英尺 。 
一 一 Grace Murray Hopper， 美 国 海军 准将 
Lisp 程 序 员 知道 所 有 东西 的 值 ， 却 不 知道 那些 东西 的 计算 成 本 。 


一 一 Alan Perlis， 耶 重大 学 
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什么 问题 。 








【否定 测试 】 如 果 一 多 话 反 过 来 就 必然 不 成 立 ， 那 就 根本 没 必 要 把 这 部 话 放 进 文档 。 


Bob Martin，AT&T 公 司 
【 一 页 原则 】 一 个 和 规格 说 明 、 设 计 、 过 程 、 测试 计划 } 如 果 不 能 在 一 页 8.5 英 寸 X11 
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当 你 试图 解释 一 条 命令 、 一 个 语言 特性 或 是 一 种 硬件 的 时 候 ， 请 首先 说 明 它 要 解决 
纸 上 的 工作 没 结 束 ， 整 个 工作 也 就 还 没 结束 。 


英寸 的 纸 ? 上 写 明 白 ， 那 么 这 个 东西 别人 就 没 办 法 理解 。 


David Martin， 宾 夕 法 尼 亚 州 诺 里 斯 敦 





系统 的 结构 反映 出 构建 该 系统 的 组 织 的 结构 。 
别 坚持 做 那些 没 用 的 事 ， 


Mark Ardis， 王 安 公 司 


90% 的 预定 开发 时 间 ， 


一 一 佚名 





Richard E. Fairley， 王 安 公司 
数据 验证 、 数 据 结 构 维护 等 家 务 活 。 





【90-90 法 则 】 前 90% 的 代码 占用 了 90% 的 预定 开发 时 间 ， 余 下 的 10% 代 码 又 花费 了 


一 一 佚名 
Tom Cargill, N RERE 
只 有 不 到 10% 的 代码 用 于 完成 这 个 程序 表面 上 的 目的 ， 余 下 的 都 在 处 理 输入 输出 、 


正确 的 判断 来 源 于 经 验 ， 然 而 经 验 来 源 于 错误 的 判断 。 





一 一 Mary Shaw， 卡 内 基 - 梅 隆 大 
写 不 可 ， 也 请 尽 可 能 多 地 利用 现 有 的 代码 。 


be 


= 


Fred Brooks， 北 卡罗来纳 大 学 
如 果 有 人 基本 上 做 出 了 你 想 要 做 的 东西 ,你 就 没 必 要 自己 写 一 个 新 程序 。 就 算 你 非 
© EN216mm X 279mm 的 Letter 型 纸 。 一 一 编者 注 


一 一 Richard Hill， 上 惠普 公司 (瑞士 日 内 瓦 ) 
O 这 条 著名 法 则 其 实 是 说 , 由 于 程序 员 难 以 事先 预 抑 到 困难 ,所 以 开发 时 间 经 常 延 长 几乎 一 倍 (90% + 90% = 180%), 
很 多 软件 企业 据 此 制定 开发 计划 ， 即 把 合理 估计 出 来 的 开发 时 间 再 加 倍 。 一 一 详 者 注 
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代码 能 借用 就 借用 。 





Tom Duff, N RERE 


与 客户 保持 良好 的 关系 可 以 使 生产 率 加 倍 。 





Larry Bernstein， 贝 尔 通信 研究 院 


把 一 个 现 有 成 熟 程 序 转移 到 一 种 新 语言 或 者 新 平台 , 只 需要 原来 开发 的 十 分 之 一 的 
ATTA]. AA. RAR, 


一 一 Douglas W. Jones, LARK 
那些 用 手 做 就 已 经 很 快 了 的 事情 ， 就 不 要 用 计算 机 去 做 了 . 
Richard Hill， 串 普 公 司 〈 瑞士 日 内 瓦 ) 





那些 能 用 计算 机 迅速 解决 的 问题 ， 就 别 用 手 做 了 。 


我 想 写 的 程序 不 只 是 程序 ， 而 且 是 会 写 程序 的 程序 . 





Dick Sites，DEC 公 司 
【Brooks 原 型 定律 】 计 划 好 抛弃 一 个 原型 ， 这 是 壕 早 的 事 。 
| Fred Brooks， 北 卡罗来纳 大 学 





如 果 开 始 就 打算 抛弃 一 个 原型 ， 那 怒 怕 你 得 抛弃 两 个 ， 
一 一 Craig Zerouni, Computer FX 公司 (英国 伦敦 ) 
原型 方法 可 以 将 系统 开发 的 工作 量 减少 40%，。 
一 一 Larry Bernstein， 贝 尔 通信 研究 院 


【Thompson 望 远 镜 学 徒 定律 】 先 做 一 个 4 英尺 镜片 的 (望远镜 ) ， 再 做 一 个 6 英尺 镜 
片 的 ， 这 比 直接 做 6 英尺 镜片 的 更 省 时 间 。 





Bill McKeeman， 王 安 公司 
拼命 干 活 无 法 取代 理解 。 


一 一 H. H. Williams， 加 州 奥克兰 
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6.7 ”其 他 


一 旦 你 把 简单 的 部 分 都 做 好 了 ， 你 就 可 以 全 力 攻 克 最 难 的 部 分 了 。 


oR? 一 旦 困难 的 地 方 摘 定 了 ， 那 你 就 胜利 在 望 了 。 
做 事 应 该 先 做 最 简单 的 部 分 .你 开始 所 预想 的 简单 部 分 , 做 起 来 可 能 是 很 有 难度 的 。 


做 事 应 该 先 做 最 难 的 部 分 。 如 果 最 难 的 部 分 无 法 做 到 ， 那 还 在 简单 的 部 分 上 浪费 时 


没什么 用 。 这 是 因为 对 任何 东西 而 言 ， 其 中 的 90% 都 是 没什么 用 的 
对 计算 机 撒谎 是 要 受到 惩罚 的 。 


一 一 Al Schapira， 贝 尔 实验 室 
【Sturgeon 定 律 一 一 在 科 弥 小 说 和 计算 机 科学 中 同等 适用 】 毫 无 疑问 ，90% 的 软件 都 





一 一 Mary Shaw， 卡 内 斯 - 梅 隆 大 学 
Perry Farrar, 52 =H 
如 果 不 要 求 系统 可 靠 ， 它 可 能 做 任何 事情 。 
一 一 H. H. Williams， 加 州 奥克兰 
一 个 人 的 第 量 是 另 一 个 人 的 变量 。 
——Susan Gerhart, Microelectronics and Computer Technology 公 司 
一 个 人 的 数据 就 是 另 一 个 人 的 程序 。 
[KISSAN] ARAP RRF RAES., 
6.8 原理 


APLE, YR TESTES TEA RT E 
6.9 习题 


一 一 Guy L. Steele, Jr., Tartan Xie 
别 轻信 那些 看 似 聪明 的 法 则 。 


一 
m 


一 一 佚名 





D 原文 为 Keep it simple, stupid。 一 一 译 者 注 


Joe Condon, 


~ 


尔 实验 室 


Dl; 
ISB ATP SE Zika AAS SEBO, 但 其 中 大 多 数 是 可 以 很 大 程度 上 进行 扩 写 的 ( 比 


6.9 ”习题 59 


Mit, MAF SA -RABENEX, RE-WAMCR MN RRE). FE ERTI 
ANAT RIK ERR E o 


先 让 程序 跑 起 来 ， 再 考虑 怎么 让 程序 跑 得 快 . 
一 一 Bruce Whiteside， 伊 利 诺 伊 州 伍德 里 奇 


你 们 的 “作业 ”就 是 用 类 似 的 方式 扩 写 其 他 仍 言 。 


l. 


HERRER EIRE. LALA SA: 
在 确定 程序 的 正确 性 之 前 ， 请 忽略 程序 的 效率 。 
或 是 


如 果 程 序 不 能 工作 ， 那 运行 再 快 也 没 用 ; 人 毕竟， 一 个 总 是 给 出 错误 结论 的 空 程 
序 是 根本 不 花 时 间 的 。 


. 举 一 个 小 而 具体 的 实例 支持 你 的 表述 。Kernighan 和 和 Plauger 在 Elements of Programming Style 第 7 


章 中 列 出 了 从 一 个 程序 源码 中 截 出 的 10 行 纠结 而 难以 理解 的 代码 。 这 段 绕 人 的 代码 节省 了 一 
次 比较 ， 却 引入 了 一 个 小 错误 。 通 过 “浪费 ”时 间 进行 一 次 本 可 以 节省 的 比较 ， 他 们 把 十 行 
隆 涩 的 代码 变 成 了 两 行 一 目 了 然 的 代码 。 从 这 一 现实 教训 中 ， 他 们 总 结 出 下 面 这 个 道理 


RRR, ARI. 


PP eae Se HAA? BOTT RAE” o 


a、 我 很 高 兴 这 个 复 言 对 于 项 目 实践 有 所 帮助 。 比 如 ，1.2 节 描述 的 几 个 例子 ， 对 系统 所 进行 的 
性 能 监视 指向 了 程序 执行 的 关键 点 ， 然 后 我 们 可 以 通过 简单 调整 这 些 关键 点 来 提高 系统 
性 能 。 

b. 忽略 这 些 艇 言 ， 可 能 导致 灾难 性 的 结果 。20 世 纪 60 年 代 初 ，Vic Vyssotsky 修 改 一 个 Fortran 
编译 器 源码 ， 想 让 一 个 原本 正确 的 程序 更 加 快速 ， 却 因而 引入 了 一 个 程序 错误 。 两 年 过 去 
了 ， 这 个 程序 错误 一 直 没 有 被 发 现 ， 因 为 在 100 000 次 编译 中 连 一 次 也 没有 调用 这 个 程序 。 
Vyssotsky 花 在 这 次 不 成 熟 的 优化 上 面 的 时 间 比 仅仅 浪费 时 间 更 加 糟糕 ， 因 为 他 使 一 个 原本 
好 好 的 程序 出 错 了 。( 不 过 ， 这 个 故事 教育 了 Vyssotsky 和 贝尔 实验 室 一 代 又 一 代 程 序 员 。) 


. 请 评价 这 些 和 驴 言 。 哪 些 是 “不 变 的 真理 ”， 哪 些 在 某 些 情况 下 会 产生 误导 ?有 一 次 我 曾经 对 


Tartan 实 验 室 的 Bi Wulf 说 起 “如 果 程 序 不 能 工作 ， 运 行 得 再 快 也 没有 用 ”这 句 话 ， 我 觉得 这 
个 是 无 可 争议 的 事实 。 这 时 他 举 了 一 个 我 们 都 在 用 的 文档 格式 化 程序 的 例子 。 尽 管 这 个 程序 
比 其 前 一 厂 本 明显 快 很 多 ， 但 在 有 些 时 候 会 慢 得 难以 忍受 ， 比 如 编译 一 本 书 要 花 上 好 几 个 小 
时 。Wulf 用 下 和 面 这 个 论据 赢得 了 这 场 论战 ， “正如 其 他 所 有 大 型 系统 一 样 ， 这 一 程序 有 10 个 
记录 在 案 的 轻微 程序 错误 ， 而 下 个 月 它 又 将 会 有 10 个 新 的 小 错误 被 我 们 发 现 。 如 果 给 你 机 会 
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进行 选择 ， 你 是 要 解决 现在 已 知 的 10 个 小 错误 ， 还 是 让 程序 快 10 倍 呢 ? ” 
6.10 ”深入 阅读 
如 果 你 想 要 更 多 这 样 言 简 意 凡 的 篇 言 , 请 看 看 Tom Parkerk Rules of Thumb( Houghton Mifflin, 
1983)。 该 书 的 封面 上 有 如 下 法 则 : 


798. 一 个 驶 鸟 蛋 足够 作为 24 人 的 早餐 加 午餐 ， 
886. 潜水 艇 能 以 最 高 效率 在 水 下 行动 的 条 件 是 : 它 的 长 宽 比 在 10 到 13 之 间 ，。 


这 本 书 上 一 共有 896 条 类 似 的 法 则 。 


Butler Lampson 发 表 在 IEEE Software 1 (1984 年 1 月 ) ER “Hints for Computer System Design” 
中 有 不 少 非常 有 用 的 “经 验 法 则 ”: 


把 通常 情况 和 最 坏 情况 分 开 处 理 . 
在 分 配 资 源 的 时 候 ， 请 努力 避免 引起 灾难 ， 而 不 是 妄图 获得 最 优 。 


Lampson 构 建 了 数 十 套 最 先进 的 软 硬 件 系统 ， 他 的 这 些 提示 总 结 了 上 自己 的 经 验 。 






粗略 舍身 


每 一 位 程序 员 都 应 该 对 粗略 估算 不 随 生 。 当 你 尝试 为 数据 库 系统 增加 一 条 命令 的 时 候 ， 你 可 
能 要 进行 下 面 的 估算 。 

。 需要 多 少 程序 员 、 多 少时 间 来 写 这 段 代码 ? 

。 需 要 增加 多 少 磁盘 来 存储 多 出 来 的 数据 ? 

。 当前 使 用 的 处 理 器 速度 是 否 能 够 将 系统 响应 时 间 维 持 在 合理 的 范围 内 ? 


粗 咯 估算 在 日 常生 活 中 也 是 很 有 用 的 : 一 辆 每 加 仑 能 跑 30 英 里 的 汽车 比 每 加 仑 能 跑 20 英 里 的 
汽车 贵 1000 美 元 ， 燃 料 的 节省 能 否 平衡 二 者 的 差价 ? 


我 第 一 次 问 大 家 介绍 这 种 粗略 估算 是 在 1984 年 2 月 的 《ACM 通 讯 》 上 。 那 个 专栏 发 表 之 后 ， 
有 不 少 读者 对 这 一 问题 进行 了 更 加 深入 的 思考 ， 并 回馈 给 我 。 本 章 中 ， 我 们 将 介绍 其 中 的 两 个 : 
适用 于 程序 员 的 经 验 法则 以 及 Little 定 律 ( 一 个 简单 却 极其 实用 的 法 则 )。 不 过 让 我 们 在 深入 各 种 
技术 细节 之 前 ， 先 来 一 点 心算 练习 吧 。 


7.1 头脑 热身 


有 个 学 生 跟 我 说 他 的 二 分 搜索 子 程序 花费 的 时 间 是 1.83 logpN， 我 反问 道 ， “1.83 是 什么 单 
位 ? ”他 一 会 儿 抬头 望 着 天 花 板 ， 一 会 儿 低 头 盯 着 地 板 ， 思 考 了 好 几 秒 钟 : “不 是 微 秒 就 是 训 
秒 一 一 我 也 不 肯定 。” 


这 位 同学 忽略 了 这 一 干 倍 的 差别 ， 整整 三 个 数量 级 。 他 不 能 以 自己 不 关心 程序 效率 之 类 的 理 
由 来 推脱 这 个 问题 ， 因 为 他 已 经 非常 认真 地 计算 出 了 三 位 有 效 数字 。 和 其 他 许多 程序 员 一 样 ， 这 
位 可 怜 的 学 生 染 上 了 Douglas Hofstadter? 所 说 的 “数值 麻木 症 ” 不 管 是 微 秒 还 是 毫秒 都 是 小 到 难 
以 想象 的 时 间 单 位 ， 费 力气 区 分 这 两 个 干 喻 ?本 节 就 提供 了 不 少 有 针对 性 的 习题 ， 帮 助 你 增强 
对 量 级 的 敏感 。 


一 千 倍 是 不 是 真 的 很 大 呢 ? “一 微 年 ”差不多 是 32 秒 ， 而 “一 毫 年 ”是 8.8 个 小 时 ， 我 很 后 
悔 没 让 他 在 这 两 者 中 选 一 个 作为 自己 课 后 留 堂 的 时 间 。 电 传播 速度 差不多 是 每 毫 微 秒 (超级 计算 


© Douglas Hofstadter 〈1945 一 )， 美 国学 者 。 他 因 科 普 名著 《 哥 德尔 。 艾 舍 尔 。 巴赫》 而 获得 普 利 策 奖 。 一 一 编者 注 
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机 的 设计 瓶颈 ) 一 英 乓 ， 它 一 微 秒 就 可 以 穿越 一 栋 大 厦 ， 一 毫秒 就 可 以 从 纽约 跑 到 华盛顿 特区 。 
说 起 华盛顿 ， 生 活 在 那里 的 一 些 人 好 像 总 是 不 记得 百 万 和 十 亿 的 差别 。 


跑 得 快 的 选手 10 秒 钟 就 能 跑 100 米 ， 平 均 每 秒 钟 10 米 。 这 个 速度 乘 上 1000 就 比 宇宙 飞船 还 快 
了 ， 而 把 它 除 上 1000 就 比 蚂 蚁 跑 得 还 慢 。 一 千 倍 的 差别 是 很 大 的 ， 不 过 更 大 的 还 在 后 面 。 下 面 的 
表格 列 出 了 速度 量 级 的 变化 9。 





等 价 的 英制 


1.2 英 寸 /世纪 








钟乳石 生长 


















107" 1.2 英 寸 /十 年 慢 速 大 陆 漂 移 

10° 1.226. /E 指甲 生长 

10° 1 英尺 /年 头发 生长 

107 1 英尺 /月 种 子 生长 

10° 3.4 英 寸 / 天 冰川 

10° 1.4 英 寸 /小 时 表 的 分 针 

10% 1.2 英 尺 /小 时 骨 - 上 肠管 道 蠕动 

10° 2 英寸 /分 钟 蜗牛 

107 2 英尺 /分 钟 I a 

10° 20 英 尺 / 分 钟 Efa 

1 2.2 英 里 /小 时 人 类 步行 

10! 22 英 里 /小 时 人 类 短跑 

10° 220 英 里 /小 时 螺旋 桨 飞机 

10° 37 英 里 /分 钟 最 快 的 喷气 式 飞 机 

104 370 英 里 /分 钟 航天 飞机 

10° 3700 英 里 /分 钟 撞击 地 球 的 流星 

10° 620 英 里 / 秒 地 球 在 轨道 上 运转 

10’ 6200 英 里 / 秒 信和 号 从 洛杉矶 发 到 卫星 再 发 到 纽约 
62 000 英 里 / 秒 光速 的 三 分 之 一 





如 采 我 同 大 家 的 述 一 个 运动 的 物体 ， 你 应 该 可 以 比较 准确 地 估计 出 物体 的 速度 。 无 论 是 空中 
飞 过 的 火箭 ,还 是 从 圆 本 中 钻 过 的 海 猩 ， 你 都 应 该 能 从 上 面 表格 中 的 档 位 或 是 档 位 之 间 估 计 出 它 
的 速度 来 。 下 一 节 中 ， 我 们 将 要 依据 对 于 计算 速度 的 直觉 来 进行 我 们 的 工作 。 


7.2 性 能 的 经 验 法 则 


我 个 知 追 盐 有 多 贯 ， 而 且 我 也 不 关心 这 个 。 因 为 它 实 在 是 太 便宜 了 ， 以 至 于 我 在 使 用 它 的 时 
候 完 全 不 考虑 化 费 ， 用 光 了 继续 买 就 是 了 。 大 多 数 程序 员 对 于 处 理 器 周期 也 有 类 似 的 感觉 而 且 
D 这 个 表 受 到 了 Morrison 等 人 的 Powers of Ten (科学 美国 人 图 书 公司 1982 年 出 版 ) 的 启发 。 该 书 的 副标题 是 “一 本 


关于 宇宙 万 物 相对 大 小 和 再 加 一 个 零 的 效果 的 书 ”。 该 书 分 42 级 逐 级 放大 10 倍 展示 了 从 102 米 的 视野 《我 们 银河 系 
直径 的 一 万 倍 ) TRA BURR A BBO OK 
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理由 很 充分 一 一 它们 几乎 什么 都 不 消耗 。 


我 想 卖 盐 的 公司 的 主管 人 员 对 待 这 种 廉价 物 应 该 会 有 不 同 的 想法 。 如 果 每 个 美国 人 每 年 消耗 
一 美元 的 盐 ， 那 就 是 一 个 两 亿 五 千 万 美元 的 市 场 -一 如 果 能 把 盐 的 生产 成 本 降低 10%， 那 将 会 带 
来 一 笔 巨 大 的 财富 。 程序 员 也 常常 因为 类 似 的 理由 对 于 处 理 器 周期 采取 同样 的 态度 : 有 些 程序 需 
要 消耗 数 十 亿 的 处 理 器 周期 。 


盐 的 价格 是 直接 标 在 其 容器 上 的 , 而 我 们 怎样 确定 一 行 代码 的 成 本 呢 ? 为 计算 机 系统 的 性 能 


定 一 个 指标 是 一 个 困难 而 又 重要 的 任务 ，10%~20% 的 出 入 就 是 数 百 万 美元 。 好 在 如 果 只 要 粗略 


的 估计 ， 那 问题 也 并 不 是 那么 困难 。 我 们 的 估计 与 其 “真实 的 ” 值 可 能 差 上 一 倍 ， 不 过 仍然 很 有 
用 。 


现在 我 就 来 说 说 我 怎样 花费 半 个 小 时 来 估算 我 所 使 用 的 计算 机 系统 (一 台 运 行 C 语 言 和 UNIX 
操作 系统 的 VAX-11/7$0) 上 面 运行 程序 的 成 本 。( 即 便 你 对 于 CPU 时 间 不 感 兴 趣 ， 你 也 可 能 对 设 
计 这 些 简单 实验 感 兴 趣 。) 我 从 下 面 的 程序 开始 ; 


n = 1000000; 
for (i = 1; 1 <= n; i++) 


UNIX 的 time 命 令 告诉 我 们 ， 这 个 程序 运行 了 6.1 秒 。 因 此 每 个 空 循环 花费 了 6.1 微 秒 的 时 间 。 我 
的 下 一 个 实验 引入 了 整 型 变量 i1、i2 和 i3: 

n = 1000000; 

for (i = 1; i <= n; i++) 

il = i2 + 13; 

这 个 代码 花 了 9.4 秒 ， 所 以 一 个 整数 加 法 花费 了 3.3 微 秒 的 时 间 。 为 了 测试 函数 调用 的 成 本 ， 我 又 
定义 了 一 个 函数 

int sum? (int a, int b) 

{ return a + b; } 
并 在 循环 中 使 用 赋值 i1:= sum2 (i2，i3)}。 这 次 程序 用 了 39.4 秒 ， 所 以 一 个 带 有 两 个 整 型 参数 
的 函数 调用 大 概 花 费 30 微 秒 的 时 间 。 


不 幸 的 是 ， 即 便 是 这 样 简 单 的 实验 ， 还 是 充满 了 潜在 的 问题 。 一 次 C 加 法 真 的 是 3.3 微 秒 的 时 
间 ? 编译 鼎 会 不 会 由 于 发 现 了 这 个 相同 的 加 法 被 不 断 重复 , 因此 只 在 循环 开始 前 做 一 次 ? 如 果 是 
这 样 ， 是 什么 问题 导致 了 这 3.3 微 秒 的 延迟 ? 是 因为 新 的 代码 在 指令 缓冲 器 中 对 齐 方式 不 同 ， 还 
是 在 进行 第 二 个 测试 时 刚好 系统 繁忙 ? 等 等 。 

为 了 测试 这 些 俊 想 ， 几 分 钟 的 性 能 实验 延长 到 了 半 个 小 时 , 不 过 最 终 我 可 以 确定 自己 的 估计 


与 真实 情况 相差 不 超过 一 倍 。 以 此 为 基础 ， 下 表 中 列 出 了 在 这 一 C 实 现 中 几 种 数学 运算 的 时 间 开 
销 估 计 。 
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整 型 操作 数 
加 法 3.3 
减法 3.7 
乘法 10.6 
除法 11.0 
浮 点 操作 数 
加 法 10.6 
减法 10.2 
乘法 15.7 
除法 15.7 
类 型 转换 
整 型 到 浮 点 型 


评点 型 到 整 型 


简单 总 结 一 下 上 面 表格 中 的 数据 : C 中 的 多 数 算术 运算 花费 10 微 秒 左右 的 时 间 。 整 数 加 减法 
比较 快 (3.5 微 秒 )， 而 浮 点 乘除 法 比较 慢 (16 微 秒 )。 但 是 请 注意 那些 函数 ! 虽然 输入 这 些 函 数 
用 不 了 几 个 字母 ， 但 是 其 执行 时 间 却 比 其 他 运算 高 两 个 数量 级 。 


在 一 些 性 能 显得 极端 重要 的 特例 中 ,我 用 两 种 方式 使 用 上 面 的 数据 。 总 体 的 趋势 可 以 帮助 我 
进行 准确 的 估计 。 如 果 一 个 子 程序 进行 W 步 ， 每 步 由 若干 算术 运算 组 成 ， 那 么 N 为 1000 时 ，C 实 
现 大 致 要 伦 半 分 钟 。 如 果 这 个 子 程序 每 天 使 用 一 次 ， 我 不 会 担心 它 的 效率 问题 ， 如 果 我 计划 每 几 
分 钟 加 使 用 这 个 子 程序 一 次 ， 我 就 会 不 厌 其 烦 地 编码 并 寻找 更 好 的 解决 办 法 。 


上 表 同 样 提示 我 们 注意 那些 十 分 耗 时 的 操作 。 一 个 精打细算 的 厨师 完全 可 以 忽略 盐 的 价格 ， 
如 来 配料 中 用 到 比较 个 的 鱼子 桨 的 话 ; C 程 序 员 也 可 以 忽略 求 平方 根 运 算 旁边 的 基本 算术 运算 。 
不 过 请 注意 , 不 同 的 系统 中 相对 花费 是 不 同 的。 在 我 以 前 用 过 的 PDP-10 Pascal 编 译 器 上 ， 浮 点 数 
运算 花费 2 微 秒 ,而 求 平方 根 和 整数 转 浮 点 数 操作 都 要 花 40 微 秒 。 在 C 里 面 ,一 次 类 型 转换 花费 一 
次 浮 点 运算 的 时 间 ， 一 次 平方 根 运 算 花 费 60 微 秒 的 时 间 ， 而 在 Pascal 当 中 ， 两 者 都 花费 20 微 秒 的 
时 间 。 本 章 后 面 的 习题 2 希望 谈 者 能 够 估计 自己 系统 上 的 各 种 时 间 花 费 。 


7.3 Little 定律 ” 


大 多 数 的 估算 都 遵循 这 样 一 个 浅显 的 法 则 ， 总 花费 就 等 于 每 个 部 分 的 花费 再 乘 以 总 的 部 分 
数 。 但 某 些 时 候 我 们 还 需要 更 深入 地 了 解 细 节 。 俄亥俄 州立 大 学 的 Bruce Weide 就 一 条 通用 得 出 奇 








的 规则 写 下 如 下 文学 。 


O 出 自 善 名 MIT 管 理 教授 John Little。 一 一 编者 注 
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Denning 和 Buzen 引 入 的 “操作 分 析 ”( 参见 Computing Surveys 10 第 3 期 ，1978 年 11 
月 ， 第 225~261 页 ) 比 计 算 机 系统 队列 网 络 模型 更 加 通用 。 他 们 的 展示 相当 精彩 ， 不 过 
由 于 文章 主题 的 限制 ， 他 们 并 未 深入 揭示 Little 定 律 的 通用 性 。 他 们 的 证 明 方法 与 队列 和 
计算 机 系统 都 没有 关系 。 想 象 一 个 任意 的 、 有 某 些 东西 进入 和 离开 的 系统 。Little 定 律 可 
尺 表述 为 “系统 中 的 东西 的 平均 数目 等 于 这 些 东西 离开 系统 的 平均 速度 乘 以 每 个 东西 离 
开 系 统 所 花费 的 平均 时 间 ?。( 著 系统 的 总 体 出 入 流 是 平衡 的 ,离开 速率 也 就 是 进入 还 率 。) 


我 在 我 的 计算 机 体系 结构 课程 中 教授 这 一 性 能 分 析 方 法 . 不 过 我 尝试 强调 这 一 结论 
是 系统 论 中 的 一 个 通用 定律 ， 可 以 被 应 用 于 许多 不 同 种 类 的 系统 。 比 如 说 ， 你 正在 排队 
等 待 进入 一 个 很 受 欢迎 的 夜总会 , 你 可 以 通过 估计 人 们 进入 的 速率 来 知道 自己 还 要 等 待 
多 长 时 间 。 应 用 Little 定 律 ， 你 可 以 推理 : “这 个 地 方差 不 多 能 容纳 60 人 ， 平 均 在 里 面 采 
的 时 间 是 3 个 小 时 ， 所 以 我 们 以 每 小 时 20 人 的 速度 进入 。 而 我 们 前 面 还 有 20 个 人 ， 所 以 我 
们 还 要 等 上 一 个 小 时 。 看 样子 我 们 还 不 如 回 家 看 《编程 珠 现 》 呢 .” 你 应 该 会 这 样 推 理 ， 


Peter Denning 将 这 一 规则 简单 地 总 结 为 :“ 队 列 中 的 平均 物件 数 等 于 进入 速率 和 平均 保存 时 
闻 的 乘积 。” 他 将 这 一 规律 应 用 于 他 的 酒 审 :“ 我 在 地 下 室 里 存 了 150 箱 酒 ， 我 每 年 要 喝 掉 〈 并 买 
A) 25 箱 。 我 保存 每 一 箱 的 时 间 有 多 和 久 ? Little 定 律 告诉 我 们 ， 用 25 箱 /年 除 150 箱 ， 也 就 是 每 箱 保 
存 6 年 。” 

然后 他 又 把 这 一 定律 应 用 寺 更 加 严肃 的 系统 。“ 可 以 用 Little 定 律 和 流 平衡 的 原理 推导 分 时 系 
统 中 的 响应 时 间 公 式 。 设 共有 N 台 平均 思考 时 间 为 Z 的 终端 连接 到 一 台 响 应 时 间 为 R 的 任意 系统 
中 。 每 一 个 用 户 周期 都 是 由 终端 思考 和 等 待 系统 响应 的 阶段 组 成 的 ， 所 以 整个 元 系统 (包括 终端 
和 计算 机 系统 ) 的 响应 时 间 相 对 于 N 是 固定 的 。 如 果 切 断 系 统 输出 到 终端 的 路 径 ， 就 可 以 看 到 一 
个 平均 负载 为 N、 平均 响应 时 间 为 Z+R, 而 吞吐 量 为 X( 即 每 个 时 间 单 位 处 理 的 作业 数 ) 的 元 系统 。 
Little 定 律 告诉 我 们 ，N = 对 X(Z 十 Rj)， 解 得 R= NIX-Z. ” 


Denning 进 一 步 说 明 :“Little 定 律 在 “强制 流 定律 ”和 “实用 定律 ”的 加 强 下 会 更 加 有 用 。 R 
们 可 以 用 这 样 的 方法 计算 下 列 问题 的 答案 : 一 个 巨大 的 计算 机 系统 包括 大 容量 的 磁盘 、 高 速 的 处 
理 回 、 一 套 机 密 的 操作 系统 和 20 个 思考 时 间 为 20 秒 的 终端 。 通 过 观察 ， 它 的 磁盘 每 处 理 一 个 作业 
束 要 处 理 100 个 数据 请 求 ， 而 磁盘 每 秒 钟 可 以 处 理 25 个 请 求 。 那 么 系统 的 吞吐 量 和 响应 时 间 各 是 
多 少 ? (我 算 了 算 ， 应 该 是 每 秒 钟 0.25 个 作业 和 60 秒 。〉 在 流 平衡 的 条 件 下 ， 这 些 答案 就 是 精确 
解 ， 而 流 平 衡 是 很 接近 实际 情况 的 。 任 何 配置 的 任何 系统 ， 只 要 磁盘 和 终端 的 参数 相同 ， 就 必然 
具有 相同 的 吞吐 量 和 啊 应 时 间 。 惊讶 吗 ? 尤其 是 那些 对 于 系统 流 和 拥塞 的 基础 定律 的 作用 缺乏 认 
识 的 人 ， 一 定 会 感到 吃惊 。” 


7.4 原理 


本 章 的 前 3 市 揭示 出 了 程序 员 的 3 大 美德 对 数值 敏感 、 实 验 的 欲望 和 良好 的 数学 功底 。 这 就 
是 我 们 所 需要 的 。 
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l. 
2. 


模仿 7.1 节 的 方式 列 出 表格 ， 内 容 以 十 倍 为 太 度 ， 标 识 时 间 、 重 量 、 距 离 、 面 积 和 体积 。 
设计 一 系列 实验 以 度量 计算 机 系统 的 性 能 ， 下 面 是 参数 列表 : 


CPU 时 间 
控制 流 : for、while、 让 和 子 程序 调用 的 负载 
算术 运算 
整数 / 浮 点 数 : TN. To. Fe. RR 
浮 点 数 : 平方 根 、 对 数 、 正 弦 
整数 、 浮 点 数 之 间 的 类 型 转换 
字符 串 操 作 : 比较 与 复制 
I/O 时 间 
读 / 写 一 个 字符 、 整 数 。 
磁盘 访问 时 间 、 读 取 时 间 。 
每 次 数据 库 操作 的 磁盘 访问 时 间 。 
实用 程序 
排序 内 存 中 的 10 000 个 整数 
排序 文件 中 的 100 000 个 20 字 节 的 字符 串 
在 文本 文件 中 搜索 字符 串 


一 些 其 他 实用 参数 包括 以 每 秒 几 行 代码 度量 的 编译 器 速度 和 一 个 单字 节 文 件 所 占用 的 磁盘 
空间 。 





. 基于 数据 分 析 运 行 时 间 时 ， 我 们 总 是 假定 这 样 一 个 性 能 模型 ， 其 中 变量 的 访问 时 间 是 常数 ， 


任何 一 条 指令 的 执行 时 间 也 是 该 常数 时 间 。 请 给 出 一 个 系统 实例 , 使 得 这 些 “ 看 起 来 很 合理 ” 
的 假设 无 法 成 立 。 


. 估计 你 所 在 城市 的 死亡 率 ， 用 总 人 口 的 百分比 /年 表示 。 

. [P J. Denning] 写 出 Little 定 律 的 证 明 。 

. [P. J. Denning] 使 用 Little 定 律 刻 画 一 个 作业 流 过 一 组 服务 器 网 络 的 过 程 。 

. [B. W. Weide] 想 象 一 队 等 待 接受 服务 的 顾客 。 在 通常 的 解释 中 , Little 定律 把 等 待 服务 和 接受 服 


务 的 顾客 总 数 与 一 个 顾客 的 平均 等 待 时 间 和 服务 时 间 联 系 起 来 。 顾 客 的 平均 排队 等 待 时 间 和 
队列 中 的 平均 顾客 数 与 这 些 量 各 自 具 有 什么 关系 ? 


. [B. W. Weide] 许 多 计算 机 中 心 仍然 使 用 巨型 机 并 行 处 理 大 量 批 处 理 作业 。 有 些 还 配 有 显示 器 以 


显示 等 竺 执行 的 作业 ， 你 可 以 看 到 你 的 作业 排 在 等 待 队列 的 什么 位 置 。 作 业 总 是 需要 等 待 才 
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能 执行 ， 因 为 总 是 有 一 大 批 作业 墙 在 前 面 〈 这 个 是 根据 Murphy 定 律 ， 而 不 是 Little 定 律 )。 假 设 
一 个 作业 在 某 机 器 上 需要 执行 的 时 间 是 20 秒 ， 该 机 器 一 次 可 能 同时 执行 10 个 作业 。 你 的 作业 
是 100 个 正在 等 待 执 行 的 作业 中 的 最 后 一 个 ， 作 业 以 先进 先 出 的 次 序 执行 。 你 大 概要 等 多 久 才 
能 等 到 你 的 作业 执行 结束 ? 


9. 确定 你 所 在 的 组 织 中 的 各 种 管理 成 本 。 买 一 本 书 除 了 标的 定价 外 ， 还 要 花费 多 少 管理 成 本 ? 
叫 秘书 打 一 封 信 昵 ?建筑 面积 的 成 本 呢 《用 美元 每 平方 英尺 每 年 表示 〉? 电话 和 计算 系统 的 
成 本 又 是 多 少 ? 


7.6 RARE 
1982 年 5 月 的 《科学 美国 人 》 杂 志 上 ，Douglas Hofstadter 的 “Metamagical Themas: Number 


numbness, or why innumeracy may be just as dangerous as illiteracy” 一 文 。 本 文 是 他 的 专著 
Metamagical Themas (Basic Books 出 版 社 1985$ 年 出 版 ) 的 后 记 。 


7.7 日 常 速算 (边栏 ) 


关于 日 常生 活 事 件 的 粗略 估算 是 很 好 的 练习 机 会 ,很 有 趣 ， 有 了 时候 还 很 有 用 。 一 位 看 过 本 章 
草稿 的 读者 说 起 了 他 几 天 前 去 超市 的 一 段 经 历 . 他 在 购物 的 同时 就 一 直 不 停 地 在 计算 所 购物 品 的 
总 价 ， 他 把 每 一 个 物品 的 价格 都 按 与 其 最 接近 的 整数 计 ， 这 样 算出 自己 的 总 花费 是 70.00 美 元 。 
当 收 球员 告诉 他 所 购物 品 的 总 价 是 92.00 美 元 时 ， 他 很 有 自信 地 检查 了 购物 单 。 收 款 员 果 然 出 错 
了 ， 她 把 所 购物 品 中 的 6 个 橘子 的 物品 编号 (429) 错 当 成 了 价格 (4.29 美 元 )， 于 是 就 把 2.00 美 元 
的 东西 变 成 了 25.00 美 元 。 


我 被 这 样 一 个 问题 难 住 过 : 一 个 1.83 米 高 的 男性 的 体积 是 多 大 ?体积 就 是 指 其 肉体 在 自然 
状态 下 所 占据 的 立方 厘米 数 ， 在 拥挤 的 电梯 中 所 占据 的 立方 英尺 数 则 是 一 个 完全 不 同 的 问题 。) 
人 们 通常 对 这 个 问题 的 反应 是 ， 这 样 一 个 常见 男性 的 体积 应 该 是 其 6 英尺 (1.83 米 ) 的 身高 乘 以 
2 类 尺 《0.61 米 ) 的 宽度 ， 再 乘 以 0.$ 贡 尺 〈0.1$ 米 ) 的 厚度 。 更 进一步 的 估计 可 以 考虑 到 人 类 的 
密度 和 水 相近 ， 差 不 多 都 是 每 立方 英尺 60 磅 ， 即 每 立方 厘米 0.001 千 克 〈 大 多 数 人 在 游泳 的 时 候 ， 
吸 口气 就 可 以 浮 起 来 ， 呼 口气 就 可 以 沉 下 去 )。 所 以 一 个 体重 为 180 磅 (100 千 克 ) 的 人 应 该 有 3 
SARR (100 000 立 方 厘米 ) 的 体积 。 跟 那 种 把 长 宽 高 相 乘 的 方法 相 比 ， 如 果 你 知道 一 个 人 的 
体重 ， 就 可 以 神奇 地 直接 得 出 他 的 体积 。 


下 面 给 大 家 留 了 几 个 预先 准备 好 的 题目 ， 不 过 请 记 住 ， 自 己 发 现 的 题目 才 是 最 有 趣 的 。 

(1) 如 果 你 所 居住 的 城市 中 的 每 个 居民 都 向 你 的 起 居室 里 扔 一 个 乒乓 球 的 话 ， 这 些 乒乓 球 能 
堆 多 高 ? 

(2) 在 你 的 组 织 中 ， 进 行 . 一 个 小 时 的 讲座 要 花费 多 少 ? 请 同时 考虑 讲座 准备 时 间 和 听众 所 花 
的 时 间 。 

(3) 美国 人 今年 花 在 非 酒精 饮料 上 面 的 钱 有 多 少 ? BA? 电视 游戏 呢 ? 空间 发 展 计划 呢 ? 
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(4) 一 本 书 通常 有 多 少 字 ? 你 一 分 钟 能 读 多 少 字 ? 你 一 分 钟 能 打 多 少 字 ? 

(5) 开 一 辆 每 公里 耗 油 0.14 升 的 车 和 一 辆 每 公里 耗 油 0.07 升 的 车 一 年 差 多 少 油 钱 ? 车 的 整个 
使 用 寿命 里 一 共 差 多 少 ? 如 果 美国 所 有 的 司机 都 选用 前 者 或 都 选用 后 者 ， 会 造成 多 大 差别 ? 

(6) 开车 一 公里 的 花费 是 多 少 ? 别 忘 了 考虑 保险 。 

(7) 购买 从 地 球 到 月 球 的 一 条 电话 线 要 花 多 少 钱 ? 

(8) 曾经 有 - -条 法 则 说 , 一 个 人 坐 在 屋子 里 对 外 放射 能 量 的 功率 是 100 瓦 。 那 么 每 天 需要 摄 入 
多 少 卡路里 才能 维持 这 个 放射 源 ? 


把 本 章 的 最 后 一 点 空间 留 给 教师 们 吧 。 在 7.6 节 中 引用 的 Hofstadter 的 论文 中 ， 他 提 到 自己 在 
纽约 时 曾 在 一 次 物理 课 上 向 学 生 提问 ,让 他 们 估计 帝国 大 厦 的 高 度 ， 当 时 ,帝国 大 厦 就 荔 立 在 他 
们 的 窗外 ， 拾 腿 残 能 看 到 。 帝 国 大 厦 的 实际 高 度 是 380 米 ， 然 而 学 生 们 的 答案 千奇百怪 ， 从 15 米 
到 1600 米 都 有 。 我 最 近 在 做 “粗略 估算 ”的 讲座 时 ， 也 有 差不多 的 经 历 。 考 试 中 有 一 道 题目 ， 问 
大 学 里 开设 一 门 一 个 学 期 、15 名 学 生 的 课程 要 花 多 少 钱 。 大 多 数学 生 给 出 的 答案 都 不 到 我 所 估计 
的 3 万 美元 的 30%， 但 也 有 高 达 1 亿 美元 和 低 至 38.05 美 元 的 极端 答案 。 











如 果 你 是 一 名 教师 ， 请 在 课堂 上 留 干 10 分 钟 讲 讲 这 个 话题 ， 然 后 再 举 几 个 小 例子 巩固 一 下 。 
出 两 道 试题 来 测试 教学 成 果 ， 我 猜 你 收 上 来 的 答案 一 定 会 很 有 趣 。? 


Q@ 关于 粗略 估算 , 请 进一步 阅读 人 民 邮 电 出 版 社 出 版 的 图 灵 新 知 系列 中 的 《这 也 能 想到 ? 
一 书 。 一 一 编者 注 





巧妙 解答 无 厘 头 问题 》 


8.1 





一 位 朋友 这 样 写 道 : 
我 不 止 一 次 地 听 到 传闻 , 说 你 公开 质 疑 菜 些 开发 计划 的 财 政 预 算 和 人 力 规划 . 今 早 


为 了 找 些 别 的 东西 ， 我 又 翻 出 了 附 在 后 面 的 这 个 备忘录 ， 我 发 现 它 能 够 帮助 你 弄 明白 那 
些 开 发 计划 为 什么 要 那样 做 。 这 个 备忘录 是 G. Furbelow 差 不 多 10 年 前 所 写 的 , 就 是 那个 
当时 和 我 、Cadwallader-Cohen 用 一 间 办 公 室 的 G. Furbelow. RS KAHT aa 


给 我 的 老板 ， 他 却说 这 种 东西 他 每 天 看 得 多 了 ， 不 用 再 看 了 。 


可 能 你 已 经 不 记得 了 ，THESEUS-I[ 是 为 美国 国防 部 开发 的 一 套 通信 系统 ， 最 初 是 
在 1964 年 的 一 次 学 术 界 跟 工 业界 的 联合 研讨 会 上 为 国防 部 提出 的 . 这 一 系统 提供 了 可 以 


将 地 球 表 面 上 任何 两 点 连接 起 来 的 能 够 快速 部 署 的 、 牢 靠 的 高 容量 通信 了 手段， 它 的 通信 
都 基于 近 地 轨 道上 面 的 电缆 卷 简 。 举 个 例子 说 ， 如 果 国 防 部 希望 能 在 又 给 巴尔 岛 和 波斯 
AZ ie IS, 他们 将 选择 一 个 位 置 合适 的 电缆 卷 简 ， 并 发 射 连接 在 电缆 一 端的 制 动 
火 将 ， 这 样 可 以 使 得 电缆 自动 从 卷 简 上 绕 开 并 再 重新 进入 大 气 进行 铺设 ， 并 能 在 到 达 地 
表 后 固定 住 。 结果 是 一 旦 这 样 部 署 好 了 ,只 有 直接 命中 的 核 打 击 才 能 切断 它 。 不 幸 的 是 ， 
开发 和 测试 中 的 种 种 问题 导致 系统 交付 使 用 时 间 一 拖 再 拖 ， 即 便 是 在 今天 ， 多 数 测试 中 
电缆 仍 无 法 成 功 到 位 。 人 们 相信 问题 出 在 系统 控制 软件 上 面 ， 只 要 修正 了 控制 软件 中 的 
缺陷， 系统 就 应 该 能 正常 工作 . 


Furbelow 写 那 份 东 西 的 时 候 ， 他 的 软件 工作 人 员 一 共有 368 人 ， 相 对 他 们 所 要 完成 
的 任务 来 说 ， 人 手 还 有 些 不 足 。 而 现在 ，THESEUS-II 软 件 工作 人 员 已 经 有 1850 人 ， 人 
们 都 很 乐观 ， 系 统 很 快 就 能 全 面 进入 正常 工作 的 状态 了 。 


Bi 


日 期 :1978 年 9 月 13 日 
主题 ，1979 年 预算 
来 日 G. Furbelow 


留 给 ; J.R. Honcho 


我 同意 你 的 观点 ， 我 把 1979 年 的 预算 增加 到 了 1978 年 的 229.3%， 看 上 去 增幅 异常 地 大 ， 然 而 
这 还 只 是 一 个 保守 的 预算 ， 除 非 我 们 的 项 目 有 重大 改变 ， 否 则 是 不 能 削减 的 。 为 了 弄 清 楚 为 什么 
会 出 现 这 样 的 状况 ， 我 将 回顾 那些 导致 预算 增长 的 因素 。 


正如 你 所 回忆 的 ， 我 们 1978 年 之 前 的 工作 量 和 人 力 是 基本 不 变 的 。 而 今年 我 们 组 织 在 
THESEUS-I 方 面 的 工作 必须 迎头 赶 上 ， 开 展 那 些 一 组 再 缓 的 维护 工作 ， 满 足 增 强 系统 的 要 求 。 
出 于 这 一 目的 , 我 们 把 1978 年 的 预算 增加 了 6.8%。 我 们 开始 人 员 方 面 的 计划 是 在 1978 年 1 月 1 号 加 
入 25 个 新 人 。 不 过 我 们 的 招聘 工作 局 动 过 于 缓慢 ， 几 乎 所 有 的 新 雇员 都 是 在 7 月 1 号 到 12 月 31 号 之 
间 过 来 的 。 于 是 ， 为 了 完成 我 们 的 工作 任务 ， 这 25 人 年 的 工作 量 只 能 在 今年 的 最 后 几 个 月 里 突击 
完成 ， 这 将 导致 我 们 的 员工 数 相 比 1 月 1 号 增长 19%， 我 们 必须 相应 地 调整 预算 。 


和 5 月 份 时 候 我 俩 说 的 一 样 ， 我 们 需要 更 多 的 办 公 空 间 以 安排 70 个 新 员工 ， 我 们 在 Smallville 
为 他 们 租 了 临时 的 办 公 室 。 我 们 的 组 织 分 作 两 地 办 公 ， 于 是 工作 效率 有 所 降低 ， 这 是 很 明显 的 事 
实 。 我 左思 右 想 ， 觉 得 现在 最 好 的 办 法 就 是 把 我 们 整个 组 织 都 搬 去 Smallville。 这 样 还 可 以 使 我 们 
的 租金 减少 约 14%， 长 期 下 来 可 以 节省 不 少 。 这 样 在 1979 年 我 们 必须 承担 搬迁 的 费用 ， 必 须 同 时 
租用 两 边 的 空间 ， 必 须 为 那些 受到 影响 的 雇员 掏 安 家 费 ， 当 然 也 少不了 搬运 设备 、 办 公 室 家 具 之 
类 的 费用 。 这 就 是 我 们 1979 年 的 管理 费用 比率 从 142% 变 成 237% 的 主要 原因 。 我 们 管理 费 比率 上 
升 的 另外 一 个 重要 原因 是 我 们 庞大 的 毕业 生 学 习 计划 占用 了 整个 人 力 费 用 的 27% (19% 增 长 加 上 
8% 换 人 所 带 来 的 损失 )。 而 且 ， 由 于 我 们 的 员工 中 新 成 员 的 比例 较 大 ， 正 处 于 薪资 提升 的 关键 点 
上 ,我 们 直接 的 发 薪 费 用 的 增长 比例 比 公司 费用 的 增长 比例 更 大 。 我 们 预计 发 薪 增 长 应 该 在 10.5% 
左右 ， 而 公司 费用 增长 为 7.2%。 


上 面 这 些 因 素 还 只 是 把 1979 年 的 预算 增加 到 了 1978 年 的 182%， 余 下 部 分 的 增加 来 自 于 不 可 
避免 的 加 班 和 计算 机 费用 。 我 们 估计 1979 年 的 总 部 迁移 将 引起 25% 的 效率 损失 ， 由 于 毕业 生 学 习 
计划 人 员 的 比例 太 高 ， 还 会 引起 额外 10% 的 效率 损失 。 为 了 部 分 补偿 效率 损失 ， 我们 计划 在 每 星 
期 六 安排 一 个 完整 的 工作 日 ， 当 然 ， 是 要 付 加 班 费 的 。 这 是 一 个 非常 划算 的 办 法 ， 因 为 这 样 只 是 
增加 了 要 付 的 薪资 ， 却 不 会 增加 管理 费用 。 但 这 也 只 能 补偿 损失 的 一 部 分 ， 而 不 是 全 部 。 于 是 我 
们 还 必须 提供 更 多 的 计算 能 力 , 通过 用 计算 机 代替 人 力 来 提高 生产 率 。 我 们 将 在 Smallville 安 装 计 
算 能 力 比 当前 高 50% 的 设备 。 不 幸 的 是 ， 不 到 1979 年 末 ， 我 们 不 能 关闭 现 有 的 计算 设施 ， 所 以 我 
们 1979 年 在 计算 机 上 的 开销 将 是 1978 年 的 2.5 倍 ， 而 两 个 计算 中 心 之 间 的 数据 链 路 开销 将 使 我 们 
1979 年 整个 计算 中 心 的 开销 达到 1978 年 的 3.4 倍 。 


考虑 到 上 述 各 种 因素 ， 我 们 1979 年 的 预算 大 约 将 会 是 1978 年 的 228%， 这 与 我 们 具体 的 预算 
229% 基 本 一 致 。 我 必须 强调 的 是 ， 这 种 预算 还 不 能 支持 我 们 接受 新 的 工作 ， 我 们 甚至 不 能 完 
我 们 现 有 的 工作 ， 因 为 即便 是 有 了 加 班 、 增 加 计算 能 力 等 措施 ， 我 们 还 是 不 足以 补偿 我 们 1979 
年 将 面临 的 效率 低下 问题 。 
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因此 我 要 不 断 地 强调 我 们 的 预算 不 能 低 于 现在 的 预计 了 。 事 实 上 最 近 的 调研 表明 ， 要 完成 
1979 年 的 工作 任务 〈 包 括 减 少 积压 的 维护 和 提高 任务 )， 我 们 1979 年 需要 在 现 有 预算 基础 上 ， 冉 
增加 25 个 人 和 5.7% 的 预算 。 与 我 们 1978 年 被 许可 的 超支 范围 相 比 ， 这 并 不 算 多 ， 我 强烈 推荐 将 其 
实施 ， 以 避免 今后 几 年 的 “危机 加 剧 ”。 不 知道 在 这 些 问 题 上 ， 我 能 否 得 到 您 的 合作 ? 


G. Furbelow 


8.2 原理 


我 朋友 是 对 的 ， 我 忽略 了 很 多 大 型 软件 项 目 可 能 面临 的 阻碍 。Furbelow 的 备忘录 帮 我 认识 到 
了 软件 团队 增 大 的 代价 是 如 此 融 昂 。 一 想到 软件 经 理 人 矢 上 扒 满 的 那些 可 怕 的 卷宗 ， 我 册 不 寒 而 
本 了。 


作为 一 名 程序 员 ， 请 善待 你 们 可 怜 的 老板 。 
8.3 ”深入 阅读 


软件 项 目 管理 方面 最 经 典 的 参考 书 莫 过 于 Fred Brooks 那 本 读 起 来 使 人 兴趣 凰 然 的 《人 月 神 
话 》 了 ， 该 书 由 Addison-Wesley 出 版 社 在 1975 年 出 版 。 它 的 前 言 的 最 开始 是 这 样 一 段 话 :“ 在 很 多 
方面 ， 管 理 大 的 软件 项 目 和 管理 其 他 的 大 型 项 目 都 是 相似 的 一 一 这 超出 了 大 多 数 程序 员 的 想 
象 。” 我 知道 Brooks 是 对 的 ， 不 过 在 听 说 可 怜 的 Furbelow 的 故事 之 前 ， 我 还 没有 意识 到 这 些 方 面 
到 撒 有 多 少 。 圣 和 运 的 是 ，Brooks 为 软件 项 中 管理 中 出 现 的 许多 问题 提供 了 很 好 的 解决 方案 。 


在 这 本 书 的 陪伴 下 ,不 知道 多 少 程序 员 度 过 了 一 个 又 一 个 愉快 的 夜晚 。 他 们 沉醉 于 其 中 通俗 
的 文字 ， 却 忽略 了 其 中 实际 材料 的 价值 。 如 果 你 也 是 这 样 的 话 ， 请 回去 拿 好 铅笔 ， 重 新 阅读 这 本 
书 。 


识 悉 《人 月 神话 》 的 人 通常 还 喜欢 Brooks 的 男 外 一 篇 文章 “No silver bullet”( 没 有 银 弹 )， 该 
文 发 表 在 IEEE 的 Computer 末 志 1987 年 4 月 号 上 ， 文 章 的 副标题 是 “Essence and accidents of software 
engineering”。 他 把 软件 工程 的 本 质 任务 定义 为 构建 复杂 的 概念 结构 ， 而 非 本 质 (accidental) {E 
务 往往 与 用 语言 表达 这 些 结构 有 关 。 文 章 介绍 了 许多 非 本 质 的 难题 怎样 因 已 取得 的 进展 “而 获 解 
次， 并 展望 了 有 望 解 决 那 些 概念 性 本 质问 题 的 各 种 技术 2 。 


O Brooks 提 到 了 高 级 语言 、 分 时 技术 、 统 一 〈 即 集成 ) 编程 环境 。 一 一 编者 注 
O 包括 高 级 语言 的 进展 、 面 向 对 象 编程 、 人 工 智 能 、 专 家 系统 、“ 自 动 化 ”编程 、 图 形 化 〈 可 视 化 ) 编程 、 程 序 验 
证 、 环 境 与 工具 、 更 强大 的 工作 站 。 一 一 编者 注 | 
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软件 之 美 有 时 就 体现 在 表面 上 。 无 论 你 的 程序 内 部 如 何 奇妙 ， 界 面 设计 上 的 缺陷 也 会 令 用 
户 望 而 却步 。 这 可 能 比 一 个 用 华丽 的 输入 和 输出 来 欺骗 用 户 的 奢 品 程序 还 要 糟糕 。 在 程序 员 看 
来 ， 输 入 和 输出 可 能 只 是 系统 的 一 小 部 分 ， 但 从 用 户 的 角度 看 ， 界 面 却 是 软件 的 一 大 块 。 

以 下 各 章 针 对 输入 和 输出 而 写 。 第 9 章 将 程序 语言 的 设计 原理 应 用 到 设计 软件 界面 的 小 语 


言 上 ， 第 10 章 讲述 如 何 设计 赏心悦目 的 文档 ， 第 11 章 转向 文档 设计 的 一 个 特殊 方面 ， 即 数据 


的 图 形 化 展示 ， 第 12 章 说 明 如 何 用 之 前 三 章 讲 到 的 技术 来 实现 一 个 民意 调查 系统 。 


1O 人 性 化 为 程序 员 提供 了 可 以 和 不 同行 业 的 有 趣 的 人 进行 交流 的 好 理由 。 以 下 各 章 讲述 了 
在 工作 中 我 如 何 与 化 学 家 、 制 图 工作 者 、 统 计 学 家 和 政治 学 者 接触 并 沟通 的 。 对 于 像 我 这 样 成 


人 后 还 不 能 决定 自己 该 干什么 的 人 来 说 ， 为 何 编程 是 一 个 理想 的 工作 ? 这 是 原因 之 一 。 

第 9 章 和 第 10 章 最 初 发 表 在 1986 年 8 月 和 9 月 的 《ACM 通讯 上; 第 11 章 在 1984 年 6 
月 发 表 后 被 重新 改写 ，11.1 节 、11.2 WA 11.6 节 几 乎 是 全 新 的 内 容 ; 第 12 章 在 本 书 中 第 一 次 出 
现 ， 其 中 的 一 些 内 容 在 1984 年 6 月 和 1986 年 8 月 曾 被 发 表 过 。 


a 分 g a 





第 9 章 小 语言 

第 10 草 文档 设计 
第 11 章 ”图形 化 输出 
第 12 章 ”对 调查 的 研究 








Dll} 


AA Ae. 多 数 程序 员 都 会 想到 大 语言 ， 例如 Foxtan 。， CoBOL 或 pasca]。 事实 上 ， 
是 用 来 表达 意图 的 一 种 机 制 , 许多 程序 的 输入 都 可 以 看 成 是 一 个 语言 的 语句 。 和 


“小 语言 ” 的 。 


程序 员 每 天 都 在 处 理 微型 语言 。 比 如 ， 考 虑 用 6 个 字符 打印 一 个 浮 点 数 ， 包 括 小 数 点 和 之 后 
的 两 位 数字 。Fortran 程 序 员 将 格式 描述 为 F6.2; COBOL 程序 员 则 直接 定义 一 个 999 .99， 而 不 会 
”特意 为 该 任务 写 一 个 子 程序 。 每 一 个 这 样 的 描述 都 是 一 个 良好 定义 的 小 语言 的 语句 。 语 言 彼此 大 
不 相同 ， 但 每 个 语言 都 有 适合 自己 的 问题 域 。 尽 管 Fortran 程 序 员 会 抱怨 999999.99999 过 长 而 
F12.5 就 可 以 胜任 ， 但 却 无 法 用 Fortran 表 达 $， $$$, aus 99 这 样 平常 的 金融 模式 。 Fortran 用 于 科学 
计算 ， 而 COBOL 是 为 商业 而 设计 的 。 


in: AAA WA E ion. 


/ / SUMMARY JOB REGION=(100K,50K) | 
II EXEC PGM=SUMMAR 


//SYSIN DD DSNAME=REP.8601,DISP=OLD, : 
/7 UNIT=2314, SPACE=(TRK, (1,1,1)), 
// VOLUME=SER=577632 | 

/ /SYSOUT DD DSNAME=SUM. 8601,DISP=(, KEEP), 
// UNIT=2314,SPACE=(TRK, (1,1,1)), 
fi VOLUME=SER=577632 

//SYSABEND DD SYSOUT=A 


今天 ， 目 以 为 了 不 起 的 年 轻 人 只 需 输 入 下 面 的 代码 就 能 完成 这 件 简单 的 事情 : 


summarize <jan.report >jan. summary 


取代 这 些 老式 “作业 控制 ”语言 的 现代 语言 不 :但 使 用 起 来 更 加 便利， 而 且 功 能 也 更 加 强大 。 


程序 员 与 语言 结伴 ， 但 许多 程序 员 却 并 没有 发 气 语 言 的 特性 。 按 照 语言 的 特性 对 程序 进行 检 
查 ， 可 以 帮 你 更 好 地 理解 所 使 用 的 语言 工具 ， 并 教会 你 为 以 后 的 程序 设计 更 优雅 的 界面 。 本 章 将 [83] 
展示 如 何以 小 语言 来 看 待 几 个 有 趣 程序 的 界面 。 
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本 章 围绕 Brian Kernighan 的 Pic 语 言 " 进 行 讨 论 ， 该 语言 用 来 绘制 线条 。 Pic 语 言 的 编译 器 是 在 
UNIX 系 统 上 实现 的 ， 该 系统 特别 支持 和 利用 了 语言 处 理 。12.2 节 将 展示 小 语言 如 何在 更 原始 的 
计算 环境 (个 人 电脑 的 BASIC 环 境 ) 下 实现 。 


9.1 节 介绍 Pic，9.2 节 将 它 与 其 他 系统 进行 比较 , 之 后 各 节 讨 论 可 以 编译 成 Pic 的 小 语言 以 及 用 
来 创建 Pic 的 小 语言 。 


9.1 Pic 语言 


谈 及 编译 器 ， 你 可 能 会 用 下 图 描述 它们 的 行为 : 


源 代码 编译 器 目标 代码 


《上 图 和 本 书 中 其 他 所 有 插图 都 是 真正 的 Pic 输 出 ， 稍 后 会 看 到 它 的 输入 描述 。) 
一 些 读本 可 能 会 对 编译 器 内 部 结构 增添 细节 。 下 图 显示 了 许多 常见 编译 器 的 结构 。 





a a 

1 | 
cS Ll 语法 分 析 代码 生成 e 目标 代码 

L w ee ea ee ee Á i -J 

编译 器 


这 张 图 也 描述 了 一 个 画图 程序 必须 执行 的 两 个 任务 : 一 个 后 端 程序 进行 画图 ， 同 时 一 个 前 端 
| 程序 翻 详 用 户 命令 并 决定 画 什么 。 


用 户 是 怎样 描述 一 个 图 的 呢 ? (宽泛 地 讲 ) 有 3 种 方式 。 第 一 种 方式 是 通过 一 个 交互 式 程序 
让 用 户 在 一 个 手 控 设 备 上 绘图 ， 第 二 种 则 是 利用 一 个 子 程序 库 将 图 片 原型 加 到 程序 语言 的 结构 
体 中 。 这 两 种 方式 留 到 下 节 再 讨论 。 


第 三 种 描述 图 的 方式 是 本 章 的 主题 
张 图 如 下 : 2 


ellipse "Source" "Code" 
arrow 

box "Compiler" 

arrow 

ellipse "Object" "Code" 





小 语言 。 例 如 ， 可 以 用 Kernighan 的 Pic 语 言 描述 第 一 


© B. W. Kernighan 在 1982 年 的 Sofhware 一 Practice and Experience 第 12 期 第 1~21 页 描述 了 “PIC 一 一 一 种 图 形 排版 语 
Ho”. Kermighan 在 PIC — A graphics language for typesetting, Revised user manual 中 描述 了 这 个 语言 的 更 新 版 本 ， 
这 是 1984 年 12 月 的 员 尔 实验 室 计算 机 科学 技术 报告 116 号 。 


@ 图 中 字符 已 译 为 中 文 。 一 一 编者 注 


9.1 Pic 语言 TI 


ai AS AT FR -ARAKAMA FEES OE ER, IT BAA 
TA E) 的 稍 头 , 第 三 行 画 一 个 文本 居中 的 方 框 。 BPMA A rik AeA SD, 
并 且 在 已 有 的 图 上 添加 新 对 象 也 很 方便 。 


下 面 的 简 图 例 举 了 Pic 文 持 的 一 些 其 他 的 可 绘图 案 ， 包 括 线 、 双 向 箭头 和 虚 杠 。 





程序 通过 隐 式 动作 、 显 式 动 作 以 及 连接 已 有 对 象 来 完成 绘图 : 


boxht = .4; boxwid = .4 
down # set default direction 
Bl: box "B1" 


"B2 " at B2.w rjust 

line right .6 from B2.e 
B3: box dashed wid .6 "B3" 
line <-> from B3.n to Bl.e 


变量 boxht 和 boxwia 是 方 框 的 默认 长 与 宽 ， 以 英寸 为 单位 。 这 些 值 也 可 以 在 方 框 定义 时 显 式 设 
置 。# 号 后 面 的 文字 是 注释 ， 直 到 行 尾 。 标 号 B1、B2 和 B3 为 对 象 命名 ， 人 允许 使 用 更 长 的 名 字 。 方 
框 B2 的 最 西点 用 B2 .w 表 示 ， 自 然 也 有 B2 .n 以 及 B2 .nw, 分 别 表示 最 北 点 和 西北 角 。 形 如 string at 
position 的 语句 将 一 串 字 符 串 文本 放置 在 给 定位 置 position 处 ; xjust 表 示 对 字符 串 进 行 右 对 齐 CF 
符 串 同样 可 以 左 对 齐 放置 ， 也 可 以 放置 在 above 或 below 位 置 )。 上 述 图 案 可 以 用 来 绘制 下 面 这 
个 更 加 细致 的 编译 器 。 








78 FOB 小 A 


ni 


ARRIR R a PE aa KE APAR Ss EM S A H ERE So DAA ZES GANA) Lee EP SHH E] 
的 语言 ? 


语言 ? 一 种 蛮 力 的 方式 是 ， 写 25 个 编译 器 。 





中 间 语 言 可 以 巧妙 地 避免 这 种 复杂 性 。 安 装 新 语言 时 只 需 写 一 个 前 端 ， 该 前 端 将 新 语言 翻译 


成 中 间 语 言 ， 安 装 新 机 器 时 则 用 一 个 后 端 将 中 间 语 言 翻 译 成 机 器 的 输出 代码 。 





如 朱 M 人 台 机 器 上 有 Z 种 语言 ， 蛮 力 方式 需要 建立 X M 个 不 同 的 编译 器 ， 而 中 间 语 言 只 需要 L 
个 前 端 和 MM 个 后 痢 。(Pic 将 其 输出 编译 成 排版 语言 Troff 的 一 个 绘图 子 集 ， 这 样 就 形成 了 一 个 便于 
在 终端 显示 程序 、 激 光 打 印 机 、 照 相 排 版 机 等 很 多 输出 设备 上 进行 解释 的 中 间 语 言 。 


最 后 一 张 图 用 到 了 两 种 Pic 语 言 结 构 : 变量 和 循环 。 


n= 5 


# number of langs & machines 
boxht = boxwid = .2 
h= .3; w= .35 # height & width for spacing 
I: box at wx (n+1}/2,0 # intermediate language box 
for i = 1 ton do { 


box with .s at i+w, h 

line from last box.s to I.n 
box with .n at ixw, -h 
line from last box.n to I.s 


# language box 


# machine box 
} 

"1 intermediate language 
"5 languages 
"5 machines 


"at I.w rjust 
"at 2nd box .w rjust 
" at 3rd box w rjust 
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本 节 的 例子 应 该 让 你 对 Pic 的 结构 有 了 一 些 认识 ， 但 这 仅仅 暗示 了 Pic 的 功能 。Pic 还 有 其 他 许 
多 使 用 方法 没有 提 到 ， 比 如 内 建 函 数 、if 语 句 、 宏 处 理 、 文 件 包含 和 简单 块 结构 。 
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9.2 视角 


本 节 考 察 图 片 绘制 程序 的 其 他 几 种 方式 ， 并 将 它们 与 Pic 进 行 比较 。 尽 管 只 针对 图 片 ， 但 同 
样 适用 于 很 多 程序 的 用 户 界面 设计 。 


使 用 交互 式 绘图 程序 ， 用 户 可 以 通过 像 鼠 标 或 绘图 板 这 样 的 现实 中 的 输入 设备 输入 图 片 ， 并 
按 其 绘制 的 样式 对 图 片 进行 显示 。 多 数 交 互 式 绘图 系统 都 有 一 个 菜单 ， 其 中 包括 方 框 、 椭 圆 和 不 
同样 式 的 线条 《垂直 线 、 水 平 线 、 虚 线 等 ) 选项 。 由 于 能 够 及 时 反馈 ， 这 样 的 系统 可 以 方便 地 绘 
制 许多 简单 图 片 ， 但 绘制 下 面 这 样 的 图 片 就 需要 一 定 的 画 功 和 耐心 了 。 








LSS 
dk 


v. ~ oo fay 
ATIN A 
Y A 
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Pic 的 编程 结构 可 以 很 容易 地 完成 该 图 的 绘制 : 


pi = 3.14159; n= 10; r= .4 
s = 2xpi/n 
for i = 1 to n-1 do { 
for j = i+] ton do { 
line from rxcos(sx*i), rs«sin(s*i)\ 
to rscos(sxj), rəsin(s»j) 


} 
〈《 行 末 的 反 斜 杠 符号 \ 允 许 该 行 语 名 延续 到 下 一 行 。) 


虽然 有 这 些 便利 的 特性 ， 不 过 简洁 性 ?不 是 要 求 变量 和 for 循 环 严 格 地 属于 一 个 完整 的 编程 
语言 吗 ? 别 担心 ,只 需 一 个 子 程序 库 就 能 解决 ， 该 子 程序 库 把 图 片 增加 到 给 定语 言 支持 的 程序 质 
型 中 。 给 定 一 个 子 程序 1ine (xl,y1,x2,y2)， 可 以 很 容易 地 用 Pascal 绘 制 上 一 张 图 ; 


pi := 3.14159; n := 10; r := 0.4; 


s := 2«*pi/n; 
for i := 1 to n-1 do 
for j := itl to n do 
line (r«cos(s*i), rxsin(sxi), 
recos(S*«j), reSin(s*j) ); 


但 是 ， 要 想 绘制 图 


© 有 客观 的 证 据 表 明 ，Pic 语 言 的 这 些 for 循 环 可 能 并 不 恰当 : 它们 的 语法 与 UNIX 系 统 中 其 他 的 类 似 循环 不 同 ， 而 
且 Pic 的 for 称 环比 其 他 语言 的 for 循 环 要 慢 几 个 数量 级 。 吹 毛 求 症 的 人 可 能 用 男 一 种 语言 写 这 些 循 环 ， 以 生成 Pic 
输出 。 经 过 利 次 权衡 ， 我 还 是 乐于 使 用 Pic 的 for 循环 一 一 使 用 那 种 结构 很 容易 产生 习题 中 的 立体 图 。 





输入 Ah SH ae 输出 


我 们 必须 编写 、 编 译 、 执 行 、 调 试 一 个 包含 如 下 形式 的 子 程序 调用 的 程序 : 


ellipse(0.3, 0, 0.6, 0.4) 
text(0.3, 0, “Input") 
arrow(0.75, 0, 0.3, 0) 
box(1.2, 0, 0.6, 0.4) 
text(1.2, 0, “Processor") 
arrow(1.65, 0, 0.3, 0) 
ellipse(2.1, 0, 0.6, 0.4) 
text(2.1, 0, "Output”) 


即便 这 样 的 代码 对 一 些 非 程序 员 来 说 也 是 太 难 了 , 比如 专业 打字 员 或 软件 管理 员 可 能 会 觉得 
Pic 更 方便 。 上 面 代码 中 每 个 子 程序 的 前 两 个 参数 是 要 绘制 对 象 的 中 心 点 ， 其 后 的 参数 给 出 了 对 
象 的 宽度 和 高 度 ， 或 者 给 出 一 个 要 显示 在 对 象 内 部 的 文本 串 。 这 些 程序 是 相当 基本 的 ， 更 聪明 一 
所 的 程序 可 能 会 给 对 象 关联 一 个 隐 式 的 动作 。 


到 目前 为 止 ， 我 们 只 是 直观 地 使 用 “小 语言 ”这 个 术语 ， 是 时 候 给 出 它 的 一 个 精确 定义 了 。 
我 将 把 计算 机 语言 这 个 术语 限制 为 文本 输入 , 这 样 就 忽略 了 由 光标 移动 和 按键 所 定义 的 空间 语言 
和 时 间 语 言 。 

通过 计算 机 语言 ， 可 以 使 用 文本 来 描述 一 个 对 象 ， 以 便 计 算 机 程序 进行 处 理 。 


饼 斤 述 的 对 象 可 以 多 种 多 样 ， 从 图 片 到 程序 再 到 纳税 申报 表 都 可 以 。“ 小 ”的 定义 更 困难 : 它 可 
能 意味 看 初学 者 可 以 在 半 小 时 内 学 会 使 用 这 个 系统 或 用 一 天 时 间 来 掌握 该 语言 , 抑或 只 用 几 天 时 
间 吏 可 以 用 其 实现 一 些 功能 。 无 论 何 种 情况 ， 小 语言 都 特 指 一 个 问题 域 并 且 不 包含 常规 语言 的 很 
多 特性 。 


本 书 中 Pic 就 是 一 个 小 语言 ， 诚 然 ， 它 是 一 个 规模 不 小 的 小 语言 。Pic 的 手册 和 用 户 指南 长 达 
26 页 《包括 50 多 张 示例 图 片 ;， 我 用 了 一 个 小 时 才 成 功 创建 了 自己 的 第 一 张 图 。Kernighan 将 第 一 
版 完成 ， 他 忙活 了 一 周 才 将 手写 版 转 成 代码 。 目 前 版 本 的 Pic 大 约 用 了 4000 行 C 代 码 实 现 ， 累 计 工 
作 量 几 个 月 (时 间 跨 度 为 5 年 )。 尽 管 Pic 具 有 大 语言 的 很 多 特性 (变量 、for 语 句 和 标号 )， 但 却 
也 缺少 很 多 其 他 特性 (声明 、while 和 case 语 句 ， 以 及 分 别 编译 )。 我 不 想 再 尝试 给 出 小 语言 的 
更 精确 的 定义 ， 如 果 你 前 面 的 定义 有 助 于 理解 程序 ， 那 就 使 用 它 ， 否 则 就 忽略 好 了 。 

之 前 我 们 一 共 考 察 了 三 种 描述 图 片 的 方式 : 交互 式 系统 、 子 程序 库 和 小 语言 。 哪 种 方式 最 好 
Me? 这 要 视 情 况 而 定 。 

绘制 简单 图 片 最 容易 的 方式 就 是 交互 式 系统 , 但 图 片 量 很 大 时 就 会 很 难 操控 了 . (你 

如 何 将 一 个 长 篇 论文 中 的 50 个 椭圆 的 长 轴 均 增加 0.1 英 寸 ， 而 短 轴 均 减少 0.05 英 寸 ? ) 

如 果 你 的 图 片 由 大 程序 生成 ， 子 程序 库 将 是 容易 而 有 效 的 方法 。 然而， 绘制 简单 图 
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片 时 子 程序 库 就 不 够 便利 了 。 
小 语言 是 描述 许多 图 片 的 通常 做 法 ， 它 们 可 以 很 容易 地 集成 到 文档 生成 系统 中 ， 以 


使 大 的 文档 可 以 包含 图 片 。 这 样 图 片 就 可 以 用 文件 系统 和 文本 编辑 器 等 我 们 熟悉 的 工具 
来 管理 . [89 | 


我 兽 使 用 过 基于 上 述 3 种 模式 的 图 片 绘制 程序 ， 每 种 方式 在 绘制 不 同 图 片 时 都 有 其 利 与 浆 ?。 
9.3 ”Pic 预 处 理 器 


小 语言 的 最 大 优点 之 一 就 是 一 个 处 理 器 的 输出 可 以 作为 另 一 个 处 理 器 的 输入 。 之 前 我 们 只 把 
Pic 看 成 是 一 种 输入 语言 ， 本 下 将 简单 考察 另外 两 个 用 来 绘制 特定 图 片 类 的 小 语言 ， 它 们 的 编译 
右 以 输出 的 形式 生成 Pic 程 序 。 


我 们 将 从 Scatter 语 言 开始 ， 该 语言 作为 Pic 的 预 处 理 器 ， 根 据 x、y 数 据 绘制 坐标 图 。Scatter 的 
输出 作为 Pic 的 输入 ， 经 Pic 转 换 为 Troff 的 文档 排版 格式 。 


af He em 


这 个 结构 很 容易 用 UNIX 的 进程 管道 实现 ; 


scatter infile ; pic | troff >outfile 


(当然 ,解释 这 一 命令 的 UNIX Shell 是 另 一 个 小 语言 。 除 了 创建 管道 的 | 操作 符 ， 该 语言 还 包括 通 
w Eme, Wif, case. forfllwhile.) 


Pic 是 一 个 规模 很 大 的 小 语言 ， 而 Scatter 则 规模 很 小 。Scatter 的 输入 命令 只 有 5 种 。 


size x 1.8 


size y 1.2 

range x 1870 1990 
range y 35 240 

label x Year 

label y Population 
ticks x 1880 1930 1980 


ticks y 50 100 150 200 
file pop.d 


size 命 令 以 英寸 为 单位 给 出 背景 的 宽 (x) 和 高 (y)。range 命 令 给 出 坐标 跨度 ，label 和 ticks 
做 藉 似 的 描述 。 坐 标的 范围 是 任意 的 ， 其 他 的 描述 都 是 可 选 的 。 图 片 描述 必须 要 给 出 一 个 包含 x、 
y 坐 标 对 的 输入 文件 。 文 件 pop .a 的 前 几 行 如 下 : 


O 就 实现 上 的 困难 而 言 ， 所 有 3 种 方法 都 有 一 个 前 端 用 于 规格 说 明 ， 一 个 后 端 用 于 绘图 。 子 程序 库 利 用 语言 的 过 程 
机 制作 为 前 端 ， 它 可 以 是 笨 抽 的 ， 但 它 必 须 是 熟悉 的 、 免 费 的 。 小 语言 可 以 用 标准 的 编译 技术 作为 它们 的 前 端 ， 
我 们 将 在 9.4 节 看 到 这 样 的 工具 。 由 于 交互 式 系统 通常 涉及 实时 图 形 , 它们 通常 是 最 难 实现 和 最 难 移植 的 (通常 有 
两 个 后 端 ， 一 个 交互 式 后 端 显示 正在 绘制 的 图 形 ， 一 个 静态 后 端 把 完整 图 形 写 入 文件 )。 
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1880 50.19 
1890 62.98 
1900 76.21 
1910 92.22 
1920 106.02 


x 值 是 年 ，y 值 是 该 年 的 美国 人 口 统计 数 ， 以 百 万 为 单位 。Scatter 将 这 一 坐标 图 的 简单 描述 转换 成 
23 行 的 Pic 程 序 进而 生成 下 图 : 





1880 1930 1980 
年 


Scatter 语 言 小 而 实用 。 其 “编译 器 ”是 一 个 24 行 的 Awk 程 序 ， 我 只 用 了 一 小 时 就 完成 了 它 的 
编写 。( 很 多 环境 下 ，Snobol 的 字符 串 处 理工 具 会 成 为 快速 实现 小 语言 的 首选 ， 但 在 我 的 UNIX 环 
境 中 ， 用 Awk 会 更 自然 些 。) Awk Programming Laneuage 一 书 〈( 本 书 2.6 节 曾 引 用 〉 的 6.2 节 中 介绍 
了 一 种 用 来 绘图 的 更 大 一 点 的 小 语言 ， 那 里 的 小 语言 并 不 是 一 个 Pic 预 处 理 器 ， 而 是 将 图 以 字符 
数组 的 形式 打印 出 来 。 


化 学 家 经 常 绘制 化 学 结构 图 ， 下 图 就 是 青 替 素 G 的 化 学 式 : 


O 
CH, —C—N S 
V4 N H 


化 竺 家 可 以 用 Pic 画 这 个 网 ， 但 这 既 枯燥 又 费时 。 对 于 一 个 有 化 学 背景 的 作者 来 说 ， 描 述 这 
个 图 的 更 自然 的 做 法 应 该 是 用 Chem 语 言 ， 其 中 包含 了 节 环 、 双 键 、 反 馈 键 等 他 们 所 熟悉 的 术语 。 


R1: ring4 pointing 45 put Nat 2 
doublebond -135 from R1.V3 ; O 
backbond up from R1.V1l ; H 
frontbond -45 from R1.v4 ; N 
H above N 
bond left from N ; C 
doublebond up ; O 
bond length .1 left from C ; CH2 
bond length .1 left 
benzene pointing left 

R2: flatringS put S at 1 put N at 4 with .V5 at R1.V1 
bond 20 from R2.V2 ; CH3 | 


nM E 
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bond 90 from R2.V2 ; CH3 
bond 90 from R2.V3 ; H 
backbond 170 from R2.V3 ; COOH 


Chem 语 言 的 历史 在 小 语言 中 是 很 常见 的 。 某 个 星期 一 下 午 , 我 和 Brian Kernighan 与 贝尔 实验 
室 的 化 学 家 Lynn Jelinski 共 处 了 一 个 小 时 ， 她 一 直 在 抱怨 写 专 业 文 章 的 难处 。 她 叙述 了 在 文档 中 
包含 化 学 结构 时 遇 到 的 麻烦 : 费用 很 高 ， 制 图 部 门 又 在 过 分 拖延 。 我 们 怀疑 她 的 差事 可 以 用 一 个 
Pic 预 处 理 器 代替 ， 于 是 我 们 先 从 她 那里 借 了 一 本 有 关 各 种 化 学 结构 图 的 专著 。 


当晚 我 和 Kemighan 各 上 自 设 计 了 一 个 可 以 描述 很 多 化 学 结构 的 微型 语言 并 且 都 用 了 约 S0 行 的 
Awk 程 序 实现 。 我 们 关于 化 学 世界 的 模型 与 现实 产生 了 偏差 一 一 那 本 专著 是 关于 聚合 物 的 ， 因 此 
我 们 的 语言 所 能 绘制 的 图 偏重 于 线性 结构 。 尽 管 如 此 ， 语 言 的 输出 却 足以 让 Jelinski 确 信 ， 只 要 她 
再 为 我 们 进行 多 一 点 的 化 学 专业 方面 的 培训 ， 整 个 问题 就 可 以 解决 。 到 了 星期 三 ， 我 们 编写 了 一 
些 Pic 宏 ， 通 过 这 些 宏 ，Jelinski 可 以 画 出 她 真正 感 兴趣 的 结构 了 ， 虽 然 对 她 来 说 ， 使 用 宏 还 会 有 
一 扩 小 万 烦 ， 但 她 确信 可 以 在 这 个 项 目 上 再 多 投入 一 些 时 间 。 之 后 的 几 天 ， 我 们 共同 创建 了 可 以 
编译 成 那些 宏 的 小 语言 并 从 中 做 了 取舍 。 一 周 以 后 ， 我 们 三 人 一 同 设计 并 实现 了 Chem 语 言 的 雏 
形 ， 从 那 以 后 ，Chem 语 言 的 发 展 完全 以 用 户 的 需求 为 导向 在 进行 着 。 目 前 的 版 本 大 约 用 了 500 行 
Awk 语 句 ， 并 使 用 了 一 个 大 约 包 含 70 行 Pic 宏 的 库 。 在 1987 年 Computers and Chemistry 1148284 
期 〈 第 281 一 297 页 ) 中 ， 我 们 三 人 详 述 了 这 个 语言 以 及 实现 它 的 代码 。 


上 述 两 个 简短 的 例子 阐明 了 小 语言 预 处 理 器 的 功用 。Pic 提 供 画 线 功 能 ，Scatter 将 其 扩展 以 给 
制 坐标 图 ，Chem 则 处 理化 学 结构 。 通 过 编译 成 Pic， 两 种 预 处 理 器 很 容易 实现 。 更 困难 的 是 将 交 
互 式 系统 扩展 到 图 表 或 化 学 这 样 的 新 问题 域 。 


9.4 用 来 实现 Pic 的 小 语言 


本 节 从 使 用 Pic 转 向 如 何 实现 它 。 我 们 将 学 习 Kernighan 用 来 创建 Pic 语 言 的 三 种 UNIX 工 具 ， 
每 种 工具 都 可 以 看 成 是 为 描述 程序 员 的 一 部 分 工作 而 提供 的 小 语言 。 本 节 只 简要 介绍 这 三 种 工 
具 ， 革 末 的 深入 阅读 部 分 将 给 出 详细 的 阐述 。 本 节 骨 在 宽泛 地 介绍 小 语言 ， 读 者 如 果 感 觉 细 节 过 
多 的 话 ， 随 时 可 以 跳 到 下 一 节 。 


之 前 一 张 图 举例 说 明了 一 个 常见 编译 器 的 组 成 部 分 ,下 图 显示 Pic 包 含 了 很 多 这 些 组 成 部 分 ， 
当然 还 不 全 : 
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gup 


我 们 要 先 学 习 Lex 程 序 , 它 生 成 了 Pic 的 词法 分 析 器 ; 之 后 我 们 学 习 Yace， 它 进行 语法 分 析 ; 
最 后 我 们 将 介绍 Make， 它 用 来 管理 Pic 用 到 的 40 个 源 文件 、 目 标 文 件 、 头 文件 、 测 试 文件 和 文档 。 


词法 分 析 器 将 输入 文本 分 割 成 记号 单位 。 它 通常 是 作为 子 程序 实现 的 , 每 次 调用 它 都 将 返回 
输入 文本 中 的 下 一 个 记号 。 例 如 ， 对 于 下 面 的 Pic 输 入 行 : 


L: line dashed down .8 left .4 from Bl.s 
词法 分 析 器 将 返回 : 


SYMBOL: L 
LINE 

DASHED 

DOWN 
NUMBER: 0.8 
LEFT 
NUMBER: 0.4 
FROM 
SYMBOL: B1 
SOUTH 


词法 分 析 器 的 创建 简单 而 又 乏味 ， 因 此 对 计算 机 来 说 这 是 一 个 理想 差事 。Mike Lesk 的 Lex 语 
言 通过 一 系列 模式 -动作 对 来 描述 词法 分 析 器 。Lex 程 序 读 这 一 描述 进而 自动 创建 一 个 C 程 序 来 实 
现 词法 分 析 器 。 当 词法 分 析 器 识别 了 左边 的 正则 表达 式 后 ， 它 就 自动 执行 右边 的 相应 动作 。 下 面 
是 Pic 的 Lex 描 述 中 的 一 段 : 


nyn return (GT) ; 

nen return (LT); 
"y= return (GE}; 

nm < return {LE) ; 
"g" return (HEAD1) ; 
"oan return (HEAD2); 
"<->" return (HEAD12); 
",*(s!south) return (SOUTH) ; 
"i" (bi bot !bottom) return (SOUTH) ; 


正则 表达 式 (a|b) 表示 a 或 p。 有 了 这 种 形式 的 描述 ，Lex 程 序 将 生成 一 个 C 函 数 进 行 词 法 分 析 。 
上 和 面 的 正则 表达 式 都 很 简单 ，Pic 的 浮 点 数 定义 更 为 有 趣 : 


({D}+("."?){D}*i"."{D}+)((eiE)("+"i-)?{D}+) 


字符 串 "{D} "表示 数字 0 到 9。(〈 在 本 章 中 ， 正 则 表达 式 其 实 是 以 文本 字符 串 来 描述 模式 的 微型 语 
言 。) 对 于 人 类 来 说 ， 为 这 样 大 量 的 字符 串 类 构造 识别 器 是 乏味 且 易 出 错 的 。 而 Lex 可 以 迅速 而 精 
确 地 从 一 个 简单 的 描述 中 构造 一 个 词法 分 析 器 。 


Yacc 是 “Yet Another Compiler-Compiler” 的 缩写 。Steve Johnson 的 这 个 程序 是 一 个 语法 分 析 
器 的 生成 器 ， 可 以 把 它 看 成 是 描述 语言 的 小 语言 。Yacc 的 输入 与 Awk 和 Lex 有 大 致 相同 的 模式 - 动 
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作对 形式 : 当 左 边 的 一 个 模式 被 识别 后 , 右边 的 动作 就 要 被 执行 。Lex 的 模式 是 正则 表达 式 ，Yacc 
则 能 支持 上 下 文 无 天语 诗 。 下 和 面 是 Pic 算 术 表 达 式 定义 的 一 部 分 : 


expr: 
NUMBER 

| VARNAME { $$ = getfval($1); } 

| expr '+' expr { $$ = $1 + $3; } 

! expr '-' expr { $$ = $1 - $3; } 

i expr ='*' expr { $$ = $1 * $3; } 

| expr '/' expr { if ($3 == 0.0) { 
error("division by zero"); 
$3 = 1.0; 


$$ = $1 / $3; } 
i ‘'(* expr ')' { $$ = $2; } 


根据 这 样 的 描述 ，Yacc 创 建 了 一 个 语法 分 析 器 。 当 分 析 器 识别 形 如 expr+expzr 的 表达 式 时 ， 它 将 
‘在 $$ 中 ) 返回 第 一 个 表达 式 的 值 ($1) 与 第 二 个 表达 式 的 值 (这 是 第 三 个 对 象 S3 ) 的 和 。 完 整 

的 定义 描述 了 运算 符 之 间 的 优先 级 〈* 优 于 +)、 比 较 操 作 符 〈 如 < 和 >)、 函 数 以 及 其 他 一 些小 细 

To 


可 以 把 一 个 Pic 程 序 看 成 是 一 系列 基本 的 几何 对 象 。 一 个 基本 对 象 是 如 下 定义 的 : 


primitive: 

BOX attrlist 
CIRCLE attrlist 
ELLIPSE attrlist 
ARC attrlist 
LINE attrlist 


boxgen($1); } 
elgen($1); } 
elgen($1); } 
arcgen ($1); } 
linegen($1); } 


m m m m a 


当 语 法 分 析 嚣 看 到 el1lipse 语 句 时 ， 将 会 分 割 其 属性 列表 然后 调用 程序 elgen。 它 把 属性 的 第 一 
部 分 , 即 记号 ELLIPSE 传 递 给 程序 elgen, 后 者 根据 该 记号 决定 将 生成 一 个 一 般 的 椭圆 还 是 圆 ( 长 
轴 与 短 轴 长 度 相 等 的 特殊 的 椭圆 )。 


所 有 Pic 原 型 具有 相同 的 属性 列表 , 但 是 某 些 原型 将 忽略 一 些 属性 。 一 个 属性 列表 或 者 为 空 ， 
或 者 是 一 个 后 面 跟 着 一 个 属性 的 属性 列表 : 


attrlist: 
attrlist attr 
| /x empty «/ 
下 面 给 出 一 个 属性 定义 的 一 小 部 分 : 


attr: 
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DIR expr { storefattr($1, !DEF, $2);} 
| DIR { storefattr($1, DEF, 0.0);} 
| FROM position { storeoattr($1, $2); } 
' TO position { storeoattr($1, $2); } 
| AT position { storeoattr($1, $2); } . 


每 个 属性 都 被 分 析 完 后 ， 相 应 的 程序 将 其 属性 值 存 储 起 来 。 这 是 4.1 节 中 讨论 的 名 字 - 值 对 的 
很 好 的 实现 。 


上 述 工 具 帮 助 解决 了 人 们 已 经 充分 研究 过 的 问题 。9.7 节 引用 的 编译 教材 分 别 用 80 页 和 120 页 
的 篇 幅 讲述 词法 分 析 器 和 语法 分 析 器 的 原理 。Lex 和 Yacc 将 里 面 的 技术 打包 : 程序 员 用 直观 的 小 
语言 定义 词法 和 语法 结构 ， 而 由 程序 自动 生成 高 质量 的 分 析 器 。 这 样 不 仅 很 容易 生成 语言 的 结构 
描述 ， 而 且 也 容易 对 语言 进行 修改 。 


Stu Feldman 的 Make 程 序 解决 了 一 个 对 于 大 程序 来 说 更 一 般 但 却 困难 的 重要 问题 : 随时 更 新 
头 文 件 代 码 、 源 代码 、 目 标 代码 、 文 档 、 测 试用 例 等 。 下 面 是 一 个 精简 版 的 Make 文 件 , Kernighan 
用 这 个 文件 来 描述 与 Pic 程 序 相关 的 所 有 文件 : 


OFILES = picy.o picl.o main.o print.o \ 
misc.o symtab.o blockgen.o \ 


CFILES = main.c print.c misc.c symtab.c \ 
blockgen.c boxgen.c circgen.c \ 


SRCFILES = picy.y picl.1l pic.h $ (CFILES) 
pic: $ (OFILES) 
cc $ (OFILES) -lm 
$ {OFILES) :pic.h y.tab-.h 
manual: 
pic manual ! eqn | troff -ms >manual.out 
backup: $ (SRCFILES) makefile pictest.a manual 
push safemachine $? /usr/bwk/pic 
touch backup 
bundle: 
bundle $(SRCFILES) makefile README 


文件 以 3 个 名 称 的 定义 开始 : oFILES 是 目标 文件 ，cFILES 包 含 C 代 码 ， 源 文件 SRCFILES 包 
含 C 文 件 和 Yacc 描 述 picy .y、Lex 描 述 picl .1 以 及 一 个 头 文件 。 下 面 一 行 说 明 Pic 必 须 有 最 新 版 
本 的 目标 文件 (Make 内 部 的 表 指 明 如 何 由 源 文件 生成 目标 文件 )。 再 下 一 行 说 明 怎 样 将 它们 结合 
以 生成 当前 版 本 的 Pic 程 序 。 接 下 来 的 一 行 说 明 目 标 文件 依赖 于 两 个 头 文件 。 当 Kernighan 键 入 
make pic 后 ，Make 程 序 检查 所 有 目标 文件 是 否 最 新 〈file.o 是 最 新 的 ， 如 果 它 的 修改 时 间 比 
file.c 的 修改 时 间 晚 )， 重 编译 过 期 模块 ， 然 后 加 载 所 需 部 分 以 及 函数 库 。 


再 下 和 面 的 两 行 告 诉 我 们 当 Kernighan 键 入 make manual 后 将 发 生 什 么 包含 用 户 手册 的 文件 
由 Troff 和 两 个 预 处 理 器 处 理 。jbackup 命 令 在 safemachine 上 保存 所 有 修改 过 的 文件 ，bunale 








9.5 原理 87 


命令 则 将 文件 打 成 压缩 包 以 便 发 送 。 尽 管 Make 最 初 设计 时 是 专门 用 来 编译 的 ， 但 Feldman 的 更 为 
出 色 而 全 面 的 机 制 同样 支持 其 他 这 些 功能 。 


9.5 原理 


小 语言 是 流行 的 第 四 代 和 第 五 代 编 程 语言 以 及 应 用 程序 生成 环境 的 重要 组 成 部 分 , 然而 它们 
对 计算 本 身 的 影响 要 更 广 。 小 语言 通常 为 人 类 提供 了 一 个 优雅 的 界面 ,这 既 方 便 了 人 类 控制 复杂 
的 程序 ， 也 便于 大 系统 中 的 模块 进行 彼此 间 的 交互 。 尽 管 本 章 的 多 数 例子 都 是 UNIX 系 统 上 的 大 
的 “系统 程序 ”，12.2 节 将 显示 这 些 想 法 是 如 何 应 用 在 一 个 相当 普通 的 数据 处 理 系统 上 的 ， 而 该 
系统 是 在 微机 上 用 BASIC 语 言 实现 的 。 


下 面 总 结 的 编程 语言 设计 原则 对 大 语言 的 设计 者 来 说 是 再 熟悉 不 过 了 , 它们 与 小 语言 的 设计 
同样 相关 。 


设计 目标 。 设 计 语 言 之 前 ， 要 认真 研究 你 试图 解决 的 问题 。 你 是 否 应 该 创建 一 个 子 程序 库 或 
交互 式 系 统 来 取代 小 语言 ? 一 个 老 的 经 验 法 则 告诉 我 们 ， 前 10% 的 编程 努力 提供 了 90% 的 程序 功 
能 ;那么 你 能 利用 Awk、BASIC 或 Snobol 来 轻松 实现 那 90% 吗 ， 还 是 你 不 得 不 使 用 像 Lex、Yacc 
和 Make 这 样 更 强大 的 工具 来 达到 99.9%? 


简单 性 。 让 你 的 语言 尽 可 能 地 简单 。 规 模 小 的 语言 便于 实现 者 设计 、 创 建 、 写 文档 和 维护 ， 
”也 便 于 使 用 者 学 习 和 使 用 。 


BRR. 常见 的 程序 设计 语言 是 基于 冯 ，。 诺 依 曼 计算 机 的 视角 进行 创建 的 ， 其 指令 只 对 
小 块 的 数据 进行 操作 。 小 语言 的 设计 者 应 当 更 具备 创造 性 : 基本 对 象 可 以 是 几何 符号 、 化 学 结构 、 
上 下 文 无 关 语 言 或 者 程序 中 的 文件 。 对象 之 上 的 操作 也 是 多 种 多 样 的 ， 从 茶 环 的 融合 到 源 文件 的 
重新 编译 ,识别 这 些 关 键 成 分 对 程序 员 来 说 是 再 熟悉 不 过 了 ; 基本 对 象 就 是 程序 的 抽象 数据 类 型 ， 
而 操作 就 是 关键 的 子 程序 。 


语言 的 结构 。 知 道 基本 对 象 和 操作 之 后 ， 仍 有 许多 不 同 的 方式 描述 它们 的 交互 。 中 缀 算术 表 
达 却 2+3*4 可 以 写成 后 缀 表达 式 234*+ 或 用 函数 形式 写成 plus (2,times(3,4)), 表达 式 的 自然 
性 和 实现 的 方便 性 之 间 通 常 需要 做 出 权衡 。 但 不 管 你 在 你 的 语言 里 包含 什么 ， 缩 进 和 注释 都 是 必 
需 的 。 


语言 设计 的 准绳 。 本 章 以 实用 的 语言 作为 例子 来 展现 语言 设计 的 优雅 而 不 是 任 空 说 教 。 下面 
是 优雅 的 设计 应 具备 的 特点 。 

o 正 交 性 : 问题 中 不 相关 的 特性 在 语言 中 也 不 要 相关 。 

。 一 般 性 : 一 种 操作 用 于 多 种 目的 。 

o 简约 性 ， 去 掉 不 需要 的 操作 。 

o 完全 性 : 所 设计 的 语言 能 描述 所 有 感 兴趣 的 对 象 吗 ? 
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o 相似 性 : 让 语言 尽 可 能 有 局 发 性 。 
e 可 扩展 性 : 确定 语言 可 以 进一步 发 展 。 
e 开放 性 允许 用 户 “ 汶 走 ” 以 使 用 其 他 相关 工具 。 


设计 过 程 。 和 其 他 好 的 软件 一 样 ， 好 的 小 语言 是 逐渐 成 长 的 ， 而 非 一 成 不 变 的 。 起初 以 一 个 
固定 的 简单 设计 ， 用 Backus-Naur 范 式 这 样 的 符号 进行 表示 。 在 实现 语言 之 前 ， 通 过 挤 述 语言 中 
大 量 的 对 象 来 测试 你 的 设计 。 当 语言 完成 并 付 诸 实 用 后 , 还 要 反复 进行 新 的 设计 以 根据 客户 的 需 
求 加 入 新 的 特性 。 


对 编译 器 生成 的 深刻 见解 。 创 建 小 语言 的 处 理 器 时， 不 要 忽视 了 编译 器 部 分 。 尽 可 能 地 从 后 
端的 处 理 过 程 中 将 前 端的 语言 分 析 分 离 出 来 ,这 样 处 理 器 的 创建 就 更 容易 ， 也 更 容易 兼容 到 新 系 
统 或 新 的 语言 用 途中 。 需 要 时 就 使 用 Lex、Yacc 和 Make 这 样 的 编译 器 生成 工具 。 
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1. 多 数 系统 提供 了 一 个 包 用 来 对 文件 进行 排序 ， 其 接口 通常 是 一 个 小 语言 。 评 价 一 下 你 的 系统 
提供 的 这 个 小 语言 。 例 如 ，UNIX 系 统 的 排序 程序 是 通过 如 下 命令 调用 的 : 
sort -t: +3n 
这 一 行 的 含义 是 ， 用 :作为 字段 之 间 的 分 隅 符 并 以 第 四 个 字段 〈 跳 过 前 三 个 字段 ) AMET AE 
顺序 将 文件 排序 。 设 计 一 个 表达 含义 更 清楚 的 小 语言 并 实现 之 ， 可 以 用 作 一 个 预 处 理 器 生成 
你 系统 的 排序 命令 。 

2. Lex 使 用 一 个 相当 于 正则 表达 式 的 小 语言 来 描述 词法 分 析 器 。 你 的 系统 上 还 有 哪些 程序 使 用 正 
则 表达 式 ? 它们 有 什么 区 别 ? 为 什么 ? 


3. 自学 各 种 用 来 描述 参考 书目 的 语言 。 这 些 语言 在 文档 检索 系统 和 文档 生成 系统 的 书目 程序 中 
有 什么 不 同 ? 每 个 系统 又 是 怎样 用 小 语言 进行 查询 的 ? 


4. 学 习 下 面 的 可 能 是 最 小 的 语言 : 汇编 器 、 格 式 描 述 和 栈 语 言 。 
5. 许多 人 将 视线 交 又 并 将 每 个 眼睛 所 看 到 的 视图 融合 后 会 看 到 三 维 立 体 图 像 : 


我 做 过 的 一 个 小 调查 显示 ， 本 章 的 一 半 读 者 应 该 会 观察 到 三 维 景 像 ， 而 另外 一 半 将 会 为 此 而 
头疼 。 





上 面 的 图 是 由 40 行 Pic 程 序 绘制 的 。 设 计 并 实现 一 个 用 来 描述 立体 图 的 三 维 语言 。 


6. 设计 并 实现 小 语言 。 比 较 有 趣 的 图 片 字段 包括 电波 图 、 数 据 结构 〈 如 数组 、 树 和 图 ， 绘 制 2.2 
节 中 的 有 穷 状态 机 尤其 有 趣 〉 以 及 通过 绘图 进行 积分 的 游戏 比赛 (如 保龄球 和 棒球 )。 田 外 一 
个 有 趣 的 领域 是 描述 乐谱 。 考 虑 实现 在 一 张 纸 上 绘制 乐谱 并 将 其 在 音乐 生成 器 上 演奏 。 


7. 设计 一 个 可 以 绘制 单位 普通 报表 《比如 旅游 开销 报表 ) 的 小 语言 。 


8. 小 语言 的 处 理 器 对 语言 上 的 错误 如 何 响 应 ? 《考虑 大 语言 编译 器 上 的 选项 .) 特定 的 处 理 右 将 
如 何 对 错误 作出 啊 应 ? 


9.7 深入 阅读 


你 可 能 已 听 说 过 由 Aho、Sethi 和 Ullman 合 著 的 Compilers: Principles, Technigues, and Tools 一 
书 ， 该 书 被 誉 为 “新 龙 书 ”CAddison-Wesley 出 版 社 1986 年 出 版 )。 从 封面 即 可 推断 出 它 是 编译 器 
领域 的 一 本 优秀 的 教材 。 书 里 面 对 小 语言 做 了 适当 的 强调 ， 此 外 ， 书 中 充分 使 用 了 Pic 语 言 生 成 
的 图 片 对 内 容 进 行 了 阐述 。( 本 章 大 多 数 有 关 编 译 器 的 图 片 灵 感 都 来 白 这 本 书 。) 


HH Kernighan#ilPike 34 UNIX Programming Environment?—- (Prentice-Hall Hitt 19844 
出 版 〉 的 第 8 章 介 绍 了 一 例 小 语言 的 历史 。 作 者 从 一 个 表达 式 求 值 语 言 开 始 ， 加 入 变量 和 函数 ， 
最 终 又 加 入 程序 控制 结构 和 用 户 自 定义 函数 ， 进 而 实现 了 一 个 具有 相当 表现 力 的 编程 语言 。 整 个 
过 程 中 ，Kernighan 和 Pike 都 使 用 本 章 提 到 的 UNIX 工 具 进 行 设计 、 开 发 和 添加 文档 。2.6 节 所 引用 
的 4WK Programming Laneuage 的 第 6 草 闸 述 了 Awk 是 如 何 轻 松 处 理 非 当 小 的 语言 的 。 


O 该 书 英文 影印 版 已 由 人 民 邮 电 出 版 社 引进 出 版 ， 中 文书 名 《编译 原理 、 技 术 与 工具 》 中 译 版 已 由 机 械 工 业 出 版 
社 出 版 ， 中 文书 名 《编译 原理 》。 一 一 编者 注 
© 该 书 中 译 版 已 由 机 械 工 业 出 版 社 出 版 ， 中 文书 名 《UNIX 编 程 环境 》。 一 一 编者 注 





文档 设计 


曾几何时 ， 计 算 机 输出 是 这 样 的 ， FOR A LONG TIME, COMPUTER OUTPUT LOOKED LIKE 
THIS。 后 来 ， 打印 机 可 以 打印 小 写字 母 和 特殊 字符 1@#$%?!1 了 。 再 后 来 ， 小 型 的 菊 轮 式 打 印 机 开 
始 能 很 漂亮 地 打印 输出 ， 也 因此 被 称 为 “具有 了 打字 机 的 质量 ”。 这 种 打印 机 能 打印 出 新 的 字符 
《比如 斜体 字符 ) 以 及 其 他 美观 的 印刷 体 〈 比 如 脚 标 )。 


机 械 打印 机 用 金属 块 存放 字母 样式 ， 激 光 打 印 机 则 用 比特 存储 字体 。( 终 于 ， 我 们 程序 员 也 


A] te EFT!) 因此 激光 打印 机 通常 可 以 有 很 多 种 字体 (有 些 可 能 很 奇特 )， 而且 可 以 让 文字 变 
大 或 变 小 。 


最 初 的 激光 打印 机 昂贵 而 且 体 积 巨 大 ， 但 之 后 技术 的 进步 使 它 们 的 成 本 减少 到 几 千 美元 , 而 
大 小 减 到 只 占 桌 面 上 几 平 方 英 尺 的 面积 。 文 档 生 成 系统 (如 Scribe、TEX 和 Troff) 使 程序 员 能 够 
日 如 地 发 挥 这 些 设备 的 功能 。 个 人 电脑 在 更 大 范围 内 推广 了 这 一 技术 , 大 众 媒体 称 之 为 “桌面 出 
版 ”的 革命 。 作 为 一 切 计 算 工具 的 专家 ， 许 多 程序 员 最 近 转 行 做 起 了 业余 排版 员 ， 他 们 使 用 的 工 
县 比 专 业 排 版 人 员 十 年 前 使 用 的 还 要 高 级 。 


这 既 带 来 了 好 处 也 带 来 了 弊病 。 好 处 很 明显 : 我 们 程序 员 可 以 使 用 这 些 强大 的 工具 创建 美观 
而 义 易 读 的 文档 了 。 许 多 程序 员 现 在 天 天 都 要 对 程序 文档 、 课 程 笔 记 、 技 术 报告 和 会 议论 文 进行 
排版 。 AEE, MOA AINE ONE: 多 数 程序 员 对 文档 的 设计 并 不 慎重 ， 强 大 的 工具 有 时 会 被 
严重 地 滥用 !!! 


和 大 多 数 程序 员 一 样 ,我 没 接受 过 图 书 设计 的 专业 训练 。 我 第 一 次 写本 章 是 在 1986 年 刚刚 完 


成 《编程 珠 丽 》 一 书 的 排版 时 。 排 版 期 间 ， 我 从 Addison-Wesley 出 版 社 的 专业 人 员 以 及 贝尔 实验 
ee ee 本 章 将 尝 oe | 


是 给 那些 自 忆 设 计 并 排版 文档 的 程序 员 看 不 cep ula de HATDLAAp a2. sti 
也 会 使 用 与 软件 相关 的 一 般 设 计 原 则 。 


接 下 来 的 一 节 将 详细 讨论 一 个 小 领域 ， 即 表 的 排版 ， 其 后 一 节 给 出 表 和 其 他 排版 样式 背后 的 
三 个 设计 原则 ， 再 后 面 两 节 涉及 插图 和 文本 ， 最 后 一 节 考 虑 如 何 选择 合适 的 方式 来 表达 思想 。 
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10.1 表格 


我 们 可 以 用 一 系列 句子 描述 不 同 大 陆 的 面积 大 小 以 及 人 口 数 量 ， 比 如 开篇 就 说 :“ 亚 洲 总 
面积 16 999 000 平 方 英里 〈 约 4400 万 平方 公里 )， 占 整个 地 球 陆 地 表面 积 的 29.7%; 其 人 口 数 量 
为 2 897 000 000， 占 全 球 人 口 总 量 的 59.8%。” 下 表 更 有 效 地 传达 了 这 一 信息 ， 而 很 多 文档 生成 
系统 都 可 以 很 容易 地 创建 它 。 和 本 章 中 其 他 所 有 表 一 样 ， 该 表 由 Mike Lesk 的 Tbl 程 序 生 成 。(Tbl 
是 一 个 描述 表 的 小 语言 ， 它 是 Troff 的 一 个 预 处 理 器 。) 


Continent Area %oEarth Pop. %Total 


Asia 16,999,000 . 2,897,000,000 
Africa 11,688,000 . 551,000,000 
North America 9,366,000 . 400,000,000 
South America 6,88 1,000 . 271,000,000 
Antarctica 5,100,000 . 0 
Europe 4,017,000 . 702,000,000 
Australia 2,966,000 . 16,000,000 





本 市 剩 下 的 部 分 是 设计 表格 的 一 个 练习 。 我 们 将 保持 表 中 数值 和 大 陆 名 称 不 变 ， 只 在 另外 三 
个 表 中 改变 其 他 的 设计 参数 。 该 表 的 下 一 个 版 本 使 用 Helvetica 字 体 “， 给 出 更 具 描 述 性 的 标题 ， 
将 表 放 于 页 面 中 央 ， 并 居中 显示 大 陆 名 称 ， 此 外 还 加 入 垂直 和 水 平 的 分 隔 线 〈 表 线 )。 由 于 数 
值 以 更 目 然 的 单位 显示 ， 新 设计 的 表 刚 好 可 以 放置 在 《ACM 通 讯 》 的 一 栏 里 。( 第 一 个 表 首 次 
出 现在 这 一 期 刊 上 时 需要 跨 两 栏 ; 正如 在 编程 中 一 样 ， 排 版 中 的 空白 通常 是 没有 成 本 的 ， 但 没 
准 有 时 却 会 非常 昂贵 。) 


Continent 
Oo 


9.366 | 16.3 





表 线 有 助 于 引导 读者 阅读 , 但 上 表 中 的 表 线 用 得 有 些 过 分 。 下 一 张 表 设 法 用 更 少 的 表 线 ， 而 


O 本 章 最 初 发 表 于 《ACM 通 讯 》， 该 刊 的 编辑 体例 规定 ， 所 有 表格 应 当 用 Helvetica 字 体 。 其 中 的 理由 之 一 就 是 ， 表 
格 都 是 用 小 字号 (8 磅 ) 排版 的 ， 而 Helvetica 的 小 字号 比较 容易 阅读 。 
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且 对 更 重要 的 区 间 划 分 使 用 双 表 线 。 名 称 居 中 也 是 不 必要 的 ， 因 此 在 新 表 中 将 改 回 左 对 齐 。 我 们 
将 使 用 更 小 的 字体 〈9 磅 而 不 是 10 磅 )， 并 把 垂直 间距 从 12 磅 缩短 到 11 磅 。 此 外 ， 对 标题 进行 了 重 
写 并 用 粗 体 铸 重 显示 。 

















Population 


| rope 


| Area | 


-a ar % of 
Sq. Mi. | Total 


Continent 






Asia 


Africa 11.4 
North America 8.3 
South America 5.6 
Antarctica 0 
Europe . 


Australia 





下 一 个 版 本 的 表 是 我 个 人 最 喜欢 的 。 其 灵感 来 源 于 10.8 节 所 引用 的 THe Chicago Manual of Style 
第 12 章 的 指南 。 该 表 尽 可 能 少 地 使 用 表 线 ， 唯 一 的 双 表 线 在 表 的 顶端 ， 以 使 表格 区 别 于 之 前 的 文 
本 。 我 喜欢 区 别 对 待 表 头 和 文本 ， 但 上 一 张 图 的 粗 体 过 于 张扬 。 因 此 下 一 张 表 只 对 主要 表 栏 头 使 [103] 
用 小 体 大 写字 母 。 出 于 同样 的 原因 ， 基 本 字体 从 Helvetica 改 回 最 初 的 Times Roman. 


Millions of Percent 
Square Miles 
























CONTINENT 






Percent 





Asia . 
Africa 11.4 
North America 8.3 
South America 5.6 
Antarctica 0 
Europe . 


Australia 





尽管 本 节 的 4 张 表 包 含 同 样 的 数据 ， 但 其 外 观 却 差别 很 大 。 一 篇 文档 的 最 佳 图 表 设 计 取 决 于 
很 多 因素 ， 从 文档 生成 系统 的 能 力 〈 它 能 否 做 到 ? 〉 到 文档 的 意图 (广告 需要 吸引 读者 的 有 眼球， 
而 手册 则 应 当 方 便 参 考 )。 


以 上 关于 图 表 外 观 的 讨论 忽略 了 图 表 设 计 中 的 很 多 基本 问题 。 四 张 表 的 格式 都 是 可 以 接受 
的 ， 但 情况 有 可 能 更 糟 《〈“ 比 如 需要 交换 行 和 列 ， 或 对 某 一 行 / 列 进行 重 排序 )。 为 图 表 设 计 美 观 的 
布局 结构 是 具有 挑战 性 的 。 但 是 ， 很 遗憾 ， 之 前 所 有 表 在 数据 描述 上 都 是 失败 的 : 数据 来 源 是 什 
么 ?这 些 数值 是 何 时 、 怎 样 收集 的 ?好 的 表 会 显示 与 数据 相关 的 一 切 背 景 。 上 面 的 讨论 完全 忽视 
了 表 中 最 重要 的 方面 : 这 些 数 意味 着 什么 ? 我 们 怎样 处 理 它们 ? 尽管 这 些 问 题 非常 重要 ， 但 已 经 
超出 了 本 章 的 主题 一 一 排版 。 
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10.2， 三 条 设计 原则 


请 等 一 等 ! 本 章 是 面向 程序 员 的 ， 而 我 们 都 知道 程序 员 是 怎样 讨厌 文档 的 : 赶快 把 它 放 到 一 
边 ， 这 样 就 可 以 尽 享 编程 之 乐 了 。 我 并 不 想 试图 说 服 狂热 的 编程 爱好 者 相信 文档 的 重要 性 ,但 我 
认为 即便 是 他 们 也 会 从 文档 设计 中 学 到 东西 。 


每 个 人 都 应 该 读 一 下 Strmunk 和 White 合 著 的 经 典 Elements of Style， 该 书 第 3 版 由 Macmillan 公 司 
在 1979 年 出 版 。Strunk 和 White 的 书 之 于 英文 ， 正 如 Kemighan 和 Plauger 合 车 的 Elements of 
Programming Style《 第 2 版 ，McGraw-H 记 ll 出 版 社 ，1978 年 》 之 于 程序 。 他 们 所 半 明 的 一 些 原 则 对 
文档 设计 同样 适用 。 下 面 是 创建 好 的 文字 、 程 序 或 文档 的 3 条 基本 原则 。 


o 和 帮 代 。Strunk 和 White 建议 作者 们 “不 断 修改 ”。 好 的 程序 员 早 已 熟知 这 一 点 ，Kernighan 
和 Plauger 的 Elements of Programming Style 上 上 是 围绕 着 修改 教科 书 中 程序 的 编 序 风 格 而 展 
开 的 。 之 前 的 4 个 表 ， 从 第 一 版 到 最 后 一 版 的 改进 着 实 费 了 不 少 力气 ,但 一 篇 好 文档 有 时 
会 使 我 们 觉得 努力 没有 白费 。 
一 致 性 。 修改 一 篇 文档 可 能 是 没有 止境 的 。 为 避免 这 一 问题 Strunk 和 White 劝 告 我 们 “ 选 
择 一 个 合适 的 设计 并 坚持 下 去 ”。 有 些 程序 员 的 设计 完全 跟着 公司 的 编程 规范 走 。 好 的 
标准 当然 是 幸 事 ， 而 坏 的 标准 有 还 不 如 没有 。 应 该 不 断 实 验 寻 求 特定 类 型 文档 的 最 佳 设 
计 风 格 ， 然 后 就 坚持 下 去 。 
e 简约 。“ 强 文 必 简 ”，Strunk 和 White 告诉 我 们 “省 去 不 需要 的 词 ”。 健 壮 、 噩 效 且 可 维 
护 的 程序 也 非常 简练 ， 好 的 程序 员 会 省 略 不 需要 的 行 、 变 量 以 及 程序 。 我 曾 听 说 一 个 程 
序 员 以 能 够 “通过 减少 代码 来 增加 功能 ”而 名 曲 一 时 。 在 保证 不 减少 信息 的 前 提 下 ， 尽 
量 从 你 的 文档 中 去 掉 过 多 的 字体 变换 和 多 余 的 线 。 


10.3 ”插图 


我 们 把 上 述 原 则 应 用 到 插图 的 排版 上 上 。 先 从 一 个 已 排序 数组 的 二 分 搜索 开始 ， 这 在 3.1 节 中 
提 到 过 。 图 1 显示 从 一 个 有 16 个 元 素 的 数组 中 二 分 搜索 50 这 个 数 : 第 一 次 试探 比较 50 和 数组 的 中 
间 第 8 个 ) 元 素 〈41)， 第 二 次 试探 第 12 个 元 素 ， 依 次 试探 ， 直 到 第 四 次 试探 在 数组 的 第 11 个 位 
置 上 找到 50。 图 1 的 大 小 、 位 置 、 字 体 和 图 例 在 个 人 电脑 上 很 常见 。 


3 4 








局 1 一 个 数组 的 二 分 搜索 


通过 一 些 实验 , 我 们 得 到 了 插图 的 第 二 个 版 本 。 该 版 本 使 用 更 精致 的 线条 并 按 页 面 的 大 小 适 . 
当 缩 减 了 方 框 与 文 池 的 大 小 。 此 外 还 变换 了 每 次 试探 所 对 应 的 箭头 的 长 度 ， 距 离 目 标 元 素 越 近 ， 
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[26 [26] 31] 31] 32] 38] 38] 41 | 43 | 46 | 50} 53] 58] 59] 79] 97, 





将 难看 的 图 题 去 掉 节 省 了 空间 ， 而 把 插图 放 到 段落 之 中 也 省 去 了 读者 查看 图 编号 的 麻烦 。 
1986 年 5 月 的 《ACM 通 讯 》 的 第 391 页 用 面积 约 15.24cm X 16.51cm 的 插图 描述 了 一 个 音乐 排 
版 系统 。 


通过 缩小 几 个 几何 图 形 ,并 旋转 这 个 图 使 其 第 头 流 方向 顺 着 页 面 文字 的 方向 而 不 是 向 下 ,得 
到 的 下 面 这 个 图 和 原 图 功能 相同 ， 但 面积 却 只 有 原 图 的 十 分 之 一 (而 且 该 期 刊 的 室 白 处 也 很 昂 
贵 )。 缩 小 插图 不 仅 节 约 空间 ， 而 且 也 让 最 终 的 版 本 比 原版 看 上 去 更 专业 。 不 妨 试 一 下 。 





”Textual 
music 






下 一 章 将 讨论 技术 性 文章 中 常会 用 到 的 一 类 插图 。 比 如 , 下 图 显示 了 一 个 微分 方程 解 的 路 径 
方向 。 
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106 下 一 个 版 本 表示 同样 的 数据 ， 却 减少 了 干扰 。 该 版 本 有 更 多 的 信息 提示 、 更 少 的 刻度 《〈 这 一 
版 里 的 4 个 和 原 图 中 的 84 个 效果 其 实 相 同 ) 和 缩小 的 尺寸 。 原 图 中 俗气 的 第 头 被 精细 的 短线 所 取代 。 


l 


y=V (2x?+1)/3 


/ 
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方向 场 是 y'= hy 


许多 图 形 程序 提供 底 纹 模式 ， 这 种 模式 通 彰 都 很 引 人 注 目 ， 有 时 也 能 提供 更 多 信息 。 然 而 ， 
底 纹 的 使 用 更 多 情况 下 却 会 模糊 图 中 的 消息 ， 而 且 让 人 防 晕 。 有 的 系统 可 以 生成 彩 图 ， 功 能 出 奇 
地 强大 《如 果 你 不 同意 ， 拿 一 张 彩色 交通 图 的 黑白 复印 件 来 对 比 读 读 看 )， 但 彩色 复印 总 是 很 昂 
BA, MAAR BLE AL. “KERR 


图 中 线 的 宽度 也 可 以 改变 插图 的 性 质 。 下 面 是 用 3 种 不 同 宽度 的 线 绘制 的 流程 图 : 


细 线 条 看 上 去 不 明显 ， 而 粗 线 条 又 显得 比较 笨拙 。 还 是 仔细 权衡 一 下 吧 。 
上 节 概述 了 3 条 设计 原则 ， 和 迭代、 一 致 性 和 简约 。 本 节 中 的 对 比 图 片 说 明 ， 重 复 也 适用 于 图 
的 设计 。 下 面 这 几 点 简约 原则 我 试图 在 播 图 中 一 贯 使 用 。 
插图 要 小 ， 但 也 要 足够 大 以 便于 阅读 。 
插图 和 它们 对 应 的 文字 要 离 得 近 。 尽 可 能 将 插图 与 文字 紧密 结合 ， 并 去 掉 插图 标题 
和 编号 。 
几 使 用 色彩 和 背景 底 纹 。 
107 使 用 精致 的 线 宽 。 
10.4 文本 


尽管 表 和 插图 营利 会 增加 效果 ， 但 任何 文档 的 精 艇 却 是 文本 : 段落 由 句子 构成 ， 句 子 由 单词 
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构成 。 以 下 几 点 谈论 如 何 写 文本 ， 程 序 员 在 写 文档 时 经 常会 忽略 它们 。 


字体 和 字号 的 改变 。 你 知道 本 段 的 主题 因为 段 首 的 8 个 字 是 楷体 。 这 种 字体 也 可 以 几 于 强调 
术语 的 定义 。 有 时 适当 地 改变 字号 也 是 有 好 处 的 ”。 但 也 要 注意 不 能 过 分 使 用 : 一 页 满 是 不 同 字 
” 体 和 字号 的 文本 太 为 难 读者 的 眼睛 了 。 


使 用 列表 。 文 本 并 不 一 定 要 成 段 给 出 ， 还 有 其 他 很 多 表达 文字 的 途径 。 


(1) 一 系列 相似 的 要 点 可 以 尝试 用 一 系列 缩 进 的 段落 给 出 。 
(2) 这 种 方式 能 让 读者 注意 各 要 所 之 间 的 相似 性 和 区 别 。 
(3) 不 要 过 度 装 饰 。 这 里 的 数 是 没 用 的 ， 可 以 改 用 圆 点 ， 什 么 都 不 用 或 许 会 更 好 。 


这 个 列表 其 实 是 不 需要 的 ， 用 一 整 段 文字 就 够 了 。 上 一 节 结 尾 的 列表 是 更 好 的 例子 。 


空白 。 使 用 空白 可 以 将 文档 中 不 同 的 成 分 (段落 、 列 表 中 的 项 、 插 图 或 表 ) 分 隔 开 。 正 如 大 
声 讲 故 事 时 某 些 特定 环节 需要 停顿 一 样 , 空白 对 于 文档 的 布局 来 说 也 至 关 重 要 。 空 白 过 少 好 比 讲 
故事 没有 停顿 ， 而 过 多 空白 则 让 人 无 法 忍受 。 


页 面 格式 。 这 是 读者 看 文档 首先 注意 到 的 方面 。 章 节 的 标题 要 直观 概括 其 内 容 的 大 意 ， 但 也 
个 能 过 分 具体 而 使 标题 显得 前 言 不 措 后 语 。 这 同样 适用 于 表 、 播 图、 程序 等 的 标题 命名 。 标 题 要 
提纲 者 领 ， 切 勿 混乱 。 


页 面 布局 。 内 容 和 格式 安排 妥当 后 就 到 了 最 后 一 步 : 将 产品 打包 。 表 和 插图 要 和 相应 的 描述 
文学 在 一 起 ， 如果 插 图 无 法 和 文字 描述 排 在 同一 页 上 ,那么 尝试 把 插图 排 到 文字 的 对 页 上 而 不 要 
放 到 文字 的 背 页 。 其 他 细节 包括 : 对 页 彼此 的 长 度 要 平衡 ， 去 掉 段 尾 的 单字 行 、 页 面 开 头 的 单独 
行 以 及 垂直 贯穿 文本 的 空白 列 。 


出 版 流程 。 论 文 在 期 刊 上 发 表 之 前 会 经 过 很 多 人 之 手 。 作 者 的 技术 性 内 容 通常 要 经 过 技术 编 
辑 和 审 稿 人 的 审阅 与 修改 。 文 稿 编辑 然后 对 写作 风格 进行 修改 以 便 和 整体 刊物 的 风格 保持 一 致 ， 
然后 排版 员 排出 毛 校 样 ， 与 此 同时 ， 专 业 制 画 员 为 文章 准备 插图 。 各 部 分 经 过 校对 后 就 排版 形成 
清 样 。 一 名 程序 员 不 可 能 具备 这 么 多 专业 人 士 的 经 验 ， 但 却 能 够 从 另 一 个 角度 考虑 问题 (如 果 
插图 与 页 面 个 匹配 ， 程 序 员 会 把 插图 放 到 下 一 页 并 缩减 其 大 小 ， 然 后 改写 相应 的 文本 ， 等 等 )。 
充分 利用 你 这 种 优越 的 机 动 性 ， 但 一 定 要 认真 考虑 专业 人 士 提 出 的 建议 。 


文本 的 还 辑 结构 。 本 章 在 《ACM 通 讯 》 上 发 表 后 ，DEC 公 司 的 Leslie Lamport ARA T EE 


QD 脚注 虽 小 但 仍然 可 读 。 它 们 是 起 附加 说 明 作 用 的 ， 因 此 应 该 少 占 篇 幅 。 较 小 的 文字 通常 用 于 长 的 引文 、 习 题 、 解 
答 、 参 考 书目 以 及 其 他 辅助 性 材料 等 。 

© 以 上 出 版 流程 与 国内 一 般 杂 志 社 和 出 版 社 大 致 类 似 ， 但 有 一 定 差异 。 一 一 编者 注 

© Lamport 是 LATEX 的 作者 《现在 微软 研究 院 )，LATEX 是 一 组 宏 ， 为 Knuth 的 TEX 排 版 系统 提供 更 结构 化 的 界面 。 
他 在 1987 年 6 月 号 的 美国 数学 会 期 刊 Notices 上 的 “Mathematical text processing” 专 栏 中 ， 在 题 为 “Document 
Production: Visual or Logical” 的 文章 中 详细 撒 述 了 他 的 思想 。 
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子 邮 件 : “作者 应 该 更 多 地 关心 文本 的 逻辑 结构 而 不 是 外 观 。 你 提 到 的 排版 系统 的 主要 优 氮 是 用 
户 可 以 通过 定义 指令 来 完成 排版 。 比 如 ， 食 谱 的 作者 可 以 定义 菜谱 、 原 料 表 和 准备 步骤 等 逻辑 结 
构 。 重 定义 这 些 指令 可 以 很 容易 地 修改 这 些 结构 的 格式 。( 许 多 排版 系统 都 存在 一 个 严重 的 问题 ， 
它们 鼓励 用 户 不 要 重 定义 ， 而 是 加 入 新 命令 ， 如 加 入 垂直 空白 列 和 双 栏 列表 。) ” 


信 中 还 说 道 : “这 一 方法 的 一 些 好 处 是 明显 的 。 比 如 ， 将 一 篇 文章 从 一 种 期 刊 格式 改变 成 另 
外 一 种 期 刊 格式 是 迅速 而 容易 的 。 不 明显 的 好 处 是 , 这 一 方法 迫使 作者 在 写作 时 始终 都 要 关注 文 
档 的 结构 (或 结构 的 欠缺 )。” 


10.5 ”合适 的 媒介 


本 章 前 面部 分 集中 讨论 改进 给 定 的 外 观 。 这 种 排版 上 的 推荐 本 质 上 只 是 表面 活 。 好 的 排版 并 
不 能 弥补 文章 本 质 上 的 缺陷 ， 如 拼写 错误 、 语 法 不 当 、 结 构 性 差 以 及 内 容 空 洞 等 。 下 面 来 看 排版 
对 文章 思想 的 清晰 表达 有 什么 基本 帮助 。 思 想 可 以 用 不 同方 式 来 表达 ， 比 如 公式 、 图 片 或 表 。 M 
[109] 代 文档 生成 系统 为 程序 员 最 好 地 表达 自己 的 思想 提供 了 极 大 的 自由 。 


在 媒介 的 选择 上 ， 我 们 程序 员 比 专业 排版 人 员 有 两 大 重要 优势 。 

© 速度 。 编 辑 想 试验 着 改变 文本 排 式 时 必须 把 任务 指定 给 一 个 打印 工 〈 通 常会 在 不 同 的 城 
市 ), 然后 等 待 他 的 结果 。 这 个 过 程 要 用 几 天 时 间 , 而 很 多 程序 员 只 需要 几 分 钟 就 可 以 做 到 。 

e 天 活性 。 对 于 某 个 想法 ， 编 辑 必 须 很 早 就 选择 一 个 最 终 的 方案 然后 把 它 交 给 该 领域 的 专 
家 《比如 专业 设计 师 ) 处 理 。 而 很 多 程序 员 可 以 利用 各 种 工具 对 不 同 的 媒介 进行 实验 来 
最 终 决定 。 


本 市 接 下 来 的 部 分 通过 实验 比较 表达 思想 的 不 同形 式 。 


老 的 几何 书 都 有 这 样 的 句子 : “直角 三 角形 斜 边 的 平方 等 于 两 直角 边 的 平方 和 。” 我 们 可 以 
用 下 图 和 等 式 =&+c 结合 一 起 来 表达 这 一 信息 : 


ie 
b 


有 很 多 方法 可 以 证 明 上 述 色 股 定理 。 可 以 使 用 经 典 几何 教材 中 的 欧 几 里 得 表示 法 〈 对 排版 来 
说 个 是 挑战 ， 但 也 并 非 难以 做 到 )， 也 可 以 用 代数 的 方法 ， 或 者 可 以 画 出 下 图 : 





10.5 合适 的 媒介 99 


这 两 个 正方 形 中 都 包含 4 个 三 角形 总 面积 都 为 2pc)。 剩 余部 分 的 面积 , ARA, HAA +c’. 


尽管 如 此 ， 插 图 并 不 总 能 节省 空间 。 在 Book Design: Systematic Aspects (Bowker, 1978) 一 
PH, Stanley Rice 用 一 张 图 占 满 了 第 97 页 ， 该 图 将 手稿 中 的 字符 数 和 成 书 的 页 数 进行 了 对 应 。 他 
完全 可 以 用 等 式 p = 0.318c 来 取代 整 幅 图 ， 这 里 p 是 页 数 ，c 是 以 干 为 单位 计数 的 字符 数 。 或 者 也 
可 以 用 一 行 字 “ 每 页 3145 个 字符 ”。 在 这 种 情况 下 ， 你 的 选择 取决 于 两 个 因素 : (1) 多 出 一 页 的 
MA; 2) 读者 愿意 看 图 还 是 公式 。 


1.3 节 深入 分 析 了 查找 文档 中 最 常用 单词 的 UNIX 管 道 ， 下 面 看 一 个 11.1 节 中 相关 的 管道 。 该 
管道 的 核心 是 一 个 UNIX Shell 语 言 中 的 常用 命令 : 


sort | unig -c ; sort -rn 


第 一 个 sort 搜 集 相 同 的 单词 ，unig 程 序 去 掉 重 复 单词 ， 进 而 对 每 个 单词 的 出 现 次 数 进行 计 
数 《-c 选 项 )， 第 二 个 sort 将 重复 出 现 的 单词 按 出 现 次 数 的 降序 进行 排列 〈(-rn 表 示 首 序 输 出 排 
序 结 果 且 基于 数值 的 比较 进行 排序 )。 下面 是 管道 示意 图 , 输入 流 是 “this is this and that is not this”: 


this and 

is iS . 

this iS ; and > rhis 

and sort not uniq -c sort -rn } 
一 -~ 一 > 一 -一 2 | not 一 一 l that 

that that 

。 : 1 that I not 

Is this 3 this 1 and 

not this 

this this 


第 15 章 揪 述 了 一 个 选择 集合 中 第 K 大 元 素 的 算法 。 该 算法 用 一 个 子 程序 划分 数组 XIL..U]， 算 
法 的 循环 不 变 式 可 以 形式 化 地 写成 下 面 公 式 : 


XTLJ=T A Vinsjsw XUIST A Yungia XLT 


也 可 以 用 程序 注释 的 形式 对 上 式 进行 简化 ， 表 达 的 意思 是 一 样 的 : 


X[L] = T and X[L+1..M] < T and X[M+1..I-1] >= T 


但 我 认为 ， 表 达 这 一 点 最 清晰 的 方式 是 用 下 面 这 张 图 : 


答案 3.1、 答 案 3.2 和 答案 3.3 处 理 堆 数据 结构 和 堆 排序 算法 。 两 者 都 依赖 于 具有 堆 性 质 Heap 
(L, 的 数组 XIL..U]， 其 数学 定义 如 下 : 


Varixy X[i div 2] S X[;] 
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下 面 是 一 个 数组 ， 其 全 部 子 数 组 都 具有 堆 性 质 ， 


|12 20 15 29 23 17 22 35 40 26 5I 19| 
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堆 排 序 把 该 数组 看 成 是 二 叉 树 ， 其 元 素 寻 丰 以 元 素 寻 2 如 为 左 儿子 ， A TCRATZN AB LF: 


N A N 
23 17 22 

/ Z/N 7 

35 40 26 51 19 


上 面 的 二 叉 树 是 一 个 堆 ， 因 为 每 个 结 点 的 值 都 比 其 〈《 零 个 、 一 个 或 两 个 ) PRED. A 
题 2 包含 了 一 些 关 于 堆 排 序 算法 的 其 他 题目 。 


在 第 2 章 中 我 们 看 到 了 Whorf 假 说 ， 其 陈述 为 “语言 塑造 了 人 的 思想 ”。 有 很 长 一 段 时 间 ， 我 
的 文档 总 受 所 使 用 的 系统 的 影响 。 那 个 系统 只 支持 文本 形式 ， 因 此 我 要 费 很 大 精力 把 我 的 想法 述 
诸 文字 。 现 在 我 使 用 的 系统 允许 根据 内 容 来 充实 文档 : 你 的 想法 可 以 用 文本 、 公 式 、 表 、 插 图 、 
程序 、 图 或 许多 其 他 的 设计 方式 来 表达 。 该 软件 激励 我 成 为 一 个 更 好 的 作者 。 


而 最 终 成 形 的 文档 ， 尽 管 受 不 同 种 类 的 显示 方式 的 影响 ， 但 对 读者 来 说 却 是 友好 的 。 通 常 ， 
显示 方式 的 选择 按 逻辑 的 流程 进行 : 从 文本 到 图 片 ， 再 到 公式 ， 然 后 到 程序 。 一 些 期 刊 要 求 将 所 
有 插图 放 到 文章 结尾 处 ， 这 使 文章 的 制作 变 得 轻松 ， 却 以 牺牲 可 读 性 作为 巨大 代价 。 很 难 想象 读 
一 篇 数学 文章 ， 而 其 中 的 所 有 公式 都 被 编号 、 加 标题 ， 然 后 赶 到 文章 的 结尾 处 。 更 无 法 想象 ， 一 
本 编程 教材 ， 其 中 所 有 代码 都 出 现在 最 后 的 附录 C 中 ! 精心 编排 出 图 文 混 排 的 文章 并 不 是 程序 员 
或 作者 的 分 内 之 事 ， 但 这 项 工作 对 文章 的 读者 却 极 有 帮助 。 


10.6 原理 


不 管 自愿 与 否 ， 许 多 程序 员 现 在 都 是 文档 设计 和 领域 的 专家 。 这 并 不 像 听 起 来 那么 可 笑 。Fred 
Brooks 在 《人 月 神话 》 第 一 章 里 雄辩 地 阐述 了 程序 员 这 一 行 的 乐趣 和 莫 衰 。 文 档 生 成 和 编程 有 很 
多 共同 之 处 。 两 者 都 要 “创造 对 他 人 有 用 的 东西 ”和 “必须 出 色 地 完成 任务 ”。 我 认为 两 者 最 大 
的 共同 点 就 是 ， 都 能 让 人 尽 享 “创造 的 乐趣 ”。 


文档 设计 需要 创意 。 如 果 所 有 人 看 装 相 同 ， 所 有 车 的 车 型 和 颜色 (很 可 能 是 黑色 〉 也 一 样 ， 
那么 这 个 世界 是 多 么 地 了 乏味， 甚至 令 人 生 晨 。 一 个 所 有 风格 看 上 去 都 差不多 相同 的 文档 库 也 是 一 
样 。 绿 合 考虑 文档 的 许多 属性 ， 才 能 得 到 最 佳 的 设计 效果 。 


但 是 要 当心 创意 过 度 。Strunk 和 White 建议 作者 们 “置身 于 背景 之 中 ”。 好 的 文档 风格 就 像 好 
的 编程 风格 和 好 的 写作 风格 一 样 ， 是 无 形 的 。 内 容 是 文档 的 首要 目的 , 文档 风格 只 是 达到 这 一 目 
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的 的 辅助 手段 。 


10.7 ”习题 


1. 很 多 数学 证 明 过 分 使 用 图 片 。 找 出 一 个 很 容易 就 能 在 黑板 上 给 出 的 证 明 并 用 你 的 文档 生成 系统 
对 其 进行 表述 。 可 供 你 选择 的 有 很 多 : 求 和 1+2+…+N、Pascal 三 角 的 其 他 性 质 以 及 毕 达 哥 拉 斯 
定理 的 其 他 证 明 ， 等 等 。 


2. 将 数组 生 1..N] 建 成 堆 后 ， 堆 排序 算法 利用 下 面 的 循环 不 变 式 完 成 排序 : 
E 
1 7 N 
不 等 号 是 XLS XU +1N KRS 2 TERE IT NG BZ T EHT SERS R A o b 


到 整个 数组 的 大 小 。 绘 图 以 显示 堆 排 序 以 及 那些 基于 最 大 元 素 选 择 的 排序 算法 的 过 程 。 

3. Æ Methods of Book Design〔 第 3 版 ， 耶 鲁 大 学 出 版 社 1983 年 出 版 ) 一 书 中 ，Hugh Williamson 提 
出 了 文档 的 3 大 主要 目标 :正确 性 、 一 致 性 和 清晰 性 。 如 何 对 计算 机 程序 进行 排版 以 达到 这 3 
点 ? 

10.8 深入 阅读 

The Chicago Manual of Style 一 书 的 第 13 版 在 1982 年 由 芝加哥 大 学 出 版 社 出 版 。 在 体现 了 该 出 

版 社 整体 文风 之 余 ， 该 书 还 给 出 了 特殊 情况 下 的 文风 原则 ， 这 已 成 为 很 多 出 版 社 的 标准 。 与 出 版 

行业 打交道 的 程序 员 最 好 人 手 一 本 。 

10.9 次 要 问题 目录 (WE) 


很 多 读者 曾 给 过 我 如 下 形式 的 评论 :“ 你 没有 提醒 这 样 可 怕 的 情形 …… ”这 些 问 题 很 多 都 已 
被 收入 到 正文 中 ， 下 面 是 一 些 应 该 考虑 的 次 要 点 。 


行 宽 过 大 。 尺 量 保持 行 宽 不 超过 75 个 字符 ， 包 括 空格 和 标点 。 行 宽 过 长 容易 使 读者 看 错 行 。 
计算 机 科学 家 经 常 错误 地 在 21.6 厘 米 宽 、 页 边 空白 宽 2.5 厘 米 的 页 面 上 使 用 10 磅 字体 。 


低 分 辨认 设备 。 扣 阵 打 印 机 、 轮 式 打 印 机 、 激 光 打 印 机 、 照 相 排 版 机 的 输出 质量 依次 提高 ， 
设备 的 价格 也 从 几 百 美元 增加 到 上 万 美元 。 读者 一 旦 习惯 了 较 高 级 的 输出 质量 ,就 很 难 回头 再 接 
受 低 一 级 的 质量 。 


下 划 线 。 用 斜体 字 取 而 代 之 通 帝 会 显得 更 美观 。 只 有 为 数 不 多 的 标记 比 下 划 线 更 突 元 。 
排版 过 度 。 失 望 的 读者 原本 可 能 幻想 本 章 会 包含 激光 打印 机 的 输出 示例 ,这 样 就 可 以 给 出 如 
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下 评论 : “这 个 激光 打印 机 的 分 辨 率 大 约 是 300dpi。 字 体 是 由 工程 人 员 设 计 的 ， 而 非 出 自 专业 设 
计 师 之 手 。 例 子 很 难 读 懂 因 为 包含 了 太 多 黑色 ， 长 度 和 宽度 的 比例 失衡 ， 字 间距 和 词 间距 失衡 ， 
缺少 律动 。 然 而 ， 一 行 之 内 可 以 混合 使 用 多 种 字体 使 它 成 为 勒索 信 的 理想 选择 。” 


广告 业 的 真理 。 过 去 ， 文 档 的 外 观 可 以 准确 反映 其 重要 性 。 从 手写 的 笔记 到 粗 印 的 初稿 ， 再 
到 精 印 的 技术 报告 ， 直 到 期 刊 文章 ， 随 着 外 观 的 改良 ， 内 容 也 越 来 越 精 彩 。 如 果 你 精心 排版 的 文 
档 里 有 你 今天 早饭 时 产生 的 一 些 想 法 ， 那 么 请 你 把 它 标 记 为 “初稿 ”。 


被 忽视 的 现成 资源 。DEC 的 Leslie Lamport 给 我 发 电子 邮件 说 ;“ 你 忽略 了 对 于 新 入 行 的 设计 
者 来 说 最 简单 而 又 最 有 效 的 建议 ， 去 书店 看 看 真正 的 图 书 设计 师 们 是 怎么 做 的 。( 你 可 能 应 该 从 
非 计算 机 科学 的 书 中 寻找 专业 人 士 的 作品 。)》 很 让 人 惊讶 的 是 ， 几 乎 没有 人 想 过 这 么 做 。?” 


电脑 屏幕 图 。 另 外 一 个 读者 写 道 :“ 你 写 到 的 一 切 可 能 是 对 的 ， 但 它们 几乎 没什么 用 。 电 脑 
屏幕 通常 充满 了 不 相关 的 东西 , 而 且 , 屏幕 图 本 来 就 便宜 、 快 捷 而 且 短 暂 。 如 果 你 的 文档 也 如 此 ， 
为 什么 还 要 先 把 它 写 下 来 ? ” 


连 字符 。 多 数 情 况 下 程序 处 理 连 字符 都 疫 问题 ,但 尽 可 能 不 要 让 你 的 读者 读 到 这 样 有 歧义 的 
转行 ，scar-city、the-rapist 和 uncle-an。 


双 引 号 。" "这样 的 双 引 号 只 适用 于 程序 中 的 字符 串 ， 而 文档 正文 中 应 该 用 “”。 
用 Fig. 表 示 图 。 与 Figure 相 比 只 节省 了 两 个 半 字 符 ， 但 看 上 去 却 很 丑陋 。 


Mallory 的 养病 。Mallory 立 志 攀 登 珠 称 衣 玛 峰 ,“ 因 为 它 就 在 那儿 ”。 这 是 登山 的 好 理由 ， 但 
为 了 着 重 显示 单词 而 使 用 24 磅 sans serif 字 体 ， 这 就 成 了 可 怕 的 借口 了 。 





图 形 化 输出 


计算 机 系统 每 年 都 变 得 更 强大 : 更 多 的 主 存 ， 更 快 的 处 理 器 和 更 大 规模 的 数据 库 。 这 是 好 消 
妃 一 一 计算 机 可 以 存储 越 来 越 多 的 数据 ， 并 对 其 进行 越 来 越 多 的 处 理 。 可 是 在 系统 执行 了 大 量 计 
” 算 之 后 ， 我 们 又 该 如 何 从 海量 数据 中 得 出 大 趋势 呢 ? 


问题 的 答案 很 大 程度 上 取决 于 数据 本 身 和 读者 的 兴趣 .。 用 成 段 的 文字 和 许多 数据 表格 经 常 也 
可 以 进行 民 好 的 概括 总 结 。 然而， 本 章 要 集中 讨论 数据 的 图 形 化 表示 ， 图 形 化 表示 可 以 调动 人 类 
”强大 的 视觉 系统 来 处 理 数 据 。 廉 价 的 激光 打印 机 和 图 形 效果 打印 机 已 经 广泛 使 用 , 而 现成 的 软件 
包 义 使 普通 程序 员 也 能 轻易 应 用 图 形 技术 。 本 章 前 述 我 们 程序 员 如 何 利 用 技术 提供 更 有 用 (也 更 
图 形 化 ) 的 输出 。 


11.1 ”实例 研究 


”本 市 我 们 将 利用 一 些 简 单 的 图 形 方法 研究 一 个 数据 集合 . 第 1 章 和 第 2 章 考虑 了 列举 文件 中 全 
部 单词 并 对 不 同 单词 计数 的 问题 。2.1 节 给 出 了 相应 的 Awk 程 序 : 
{for (1 = 1; i <= NF; i++) ‘count [Si]++ } 
END { for (i in count) print countlil, i } 
下 面 的 UNIX Shell 管 道 执行 同样 的 任务 ， 与 13 7 | 
节 中 的 程序 类 似 : 


CS | tr-s 4E * '\012" | sort | unig ve 


为 与 Awk 程 序 保 持 一 致 ， 该 程序 并 不 将 大 写字 母 转 
换 成 小 写字 母 ， 也 不 对 最 终 的 单词 列表 进行 排序 。 


我 以 本 书 初稿 的 15 章 为 输入 运行 了 这 两 个 程 
序 并 分 别 计 时 。 右 表 第 一 行 表 明 第 1 章 共计 有 4351 
个 单词 ， 其 中 有 1579 个 不 同 的 单词 。Shell 管 道 程序 
在 VAX-11/750 上 运行 用 了 3.2 秒 ， Ca i T 
28.2%. 
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本 节 给 出 一 些 图 ， 突 出 显示 这 个 数据 集合 中 存在 的 某 些 关系 。 不 过 请 你 先 用 一 分 钟 目 己 找 找 
有 哪些 趋势 。 
下 面 这 张 散 点 图 ?把 Awk 的 运行 时 间 看 成 是 Shell 运 行 时 间 的 函数 ， 其 中 显示 的 是 上 页 表 中 最 


1 15 2 25 3 35 4 45 5 
Shell 


图 中 的 点 大 致 排 为 一 条 线 ， 于 是 我 用 最 小 二 乘 回 归 法 得 到 
T, = 9.27xT,, -0.88 


wW 


用 语言 表达 ，Shell 程 序 大 概 比 Awk 程 序 要 快 8 倍 左右 。 

下 图 * 是 这 一 数据 集合 更 好 的 表示 。 有 些 表 面 上 的 变动 : 图 变 小 了 、 刻 度 变 少 了 、 刻 度 标 到 
了 外 面 (在 区 域内 部 标 刻 度 会 影响 数据 的 清晰 度 )， 而 文字 标题 也 更 明确 了 。 另 外 3 个 变动 提供 了 
更 多 的 信息 : 回归 线 便 于 我 们 比较 实际 值 和 回归 值 ， 较 大 的 图 形 区 域 表 明 回 归 线 与 横 轴 交点 接近 
原点 ， 回 归 线 上 标示 的 符号 是 章 号 。 


40 
30 


Awk 运 行 时 间 
(CPU 秒 数 ) 20 





0 l 2 3 4 5 
Shell 运 行 时 间 (CPU 秒 数 ) 


D 本 书 所 有 图 形 都 用 Grap 〈 一 种 图 形 排版 语言 ) 产生 ，Kernighan 和 我 在 1986 人 年 8 月 的 《ACM 通 讯 》 上 描述 了 这 种 语 


言 。Grap 被 实现 为 第 9 章 描述 的 Pic 语 言 的 预 处 理 器 。 
D 为 了 便于 读者 理解 图 的 含义 ， 译 者 将 部 分 图 中 的 文字 翻译 成 了 中 文 ， 但 实际 原 书 中 用 Grap 生 成 的 图 中 的 文字 均 为 
英文 。 一 一 详 者 注 


11.2 显示 结果 取样 105 
注意 ， 所 有 章 都 位 于 回归 线 附近 ， 而 回归 线 几 乎 穿 过 原点 。 篇 幅 较 小 的 第 8 章 处 理 起 来 很 快 ， 
而 篇 幅 较 大 的 第 9 章 和 第 10 章 耗费 的 CPU 时 间 则 多 得 多 。 


下 面 一 对 图 分 别 显示 了 不 同 单词 数 与 全 部 单词 数 以 及 全 部 单词 数 与 运行 时 间 之 间 的 一 些 关 
系 。 两 张 图 突出 显示 了 最 小 二 乘 回归 : 


W histinet 


= 0.29 Wren +343 
Tony = 0.006% Wna +2.56 117 

为 了 节省 空间 ， 我 们 缩小 了 两 张 图 的 面积 并 将 它们 并 排 显示 : 
2500 


2000 


不 同 单词 数 1500 Awk 运 行 时 间 


1000 


500 





0 2000 4000 6000 0 2000 4000 6000 
总 计 单 词 数 总 计 单 词 数 


左 图 显示 不 同 单词 数 约 为 全 部 单词 数 的 30%， 但 这 只 是 粗略 佑 计 。 右 图 表明 Awk 和 运行 时 间 非 常 接 
近 于 最 小 二 乘 回归 预测 的 每 1000 个 单词 需要 6 秒 钟 。 


11.2 显示 结果 取样 
上 节 用 散 点 图 为 数据 集合 进行 图 解 ， 本 节 考 察 其 他 各 种 图 以 便 合 适 地 概括 各 种 数据 。 


你 不 一 定 总 是 需要 一 个 昂贵 的 输出 设备 进行 显示 。 比 如 John Tukey 的 茎 与 叶 显 示 方 式 可 以 由 
行 式 打印 机 打印 出 来 。 本 例 给 出 卖国 前 40 任 总 统 就 职 时 的 年 龄 〈 从 华盛顿 到 里 根 ， 克 里 夫 兰 计算 
PAIK). SATII (PMH) 7043F CAE), BUR —FTIOROSS MIA) 684 CG 
里 森 ) 和 69 岁 〈 里 根 )。 


40-44 | 23 

45-49 | 67899 

50-54 | 001111224444 
55-59 | 555566677778 
60-64 | 011124 

65-69 | 589 
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显示 结果 的 形状 形成 一 个 有 关 年 龄 的 直方 图 〈 构 成 喇叭 状 )。 用 统计 单位 划分 坐标 轴 以 便 呈 现 整 
个 数据 集合 。 


时 间 序 列 显 示 了 一 个 变量 是 如 何 随 着 时 间 变 动 的 。 比 如 下 面 这 一 对 共享 x 轴 的 图 ， 显 示 了 美 
国 国内 电话 机 数量 是 如 何 从 1900 年 的 130 万 台 增 加 到 1970 年 的 1.2 亿 的 。( 显 然 ， 统 计 单 位 是 “ 百 
万 台 ”。) 


120 


90 
线性 比例 <o 


30 


百 万 电话 


对 数 比例 10 


1900 1920 1940 1960 
年 份 


20 世 纪 第 一 个 10 年 ， 电 话 数量 急剧 增加 ， 此 后 60 年 则 以 一 个 几乎 是 常数 的 百分比 增加 。 这 一 
长 期 趋势 中 只 有 两 处 例外 。 大 萧条 使 得 20 世 纪 30 年 代 初 电话 数量 减少 ,而 这 一 下 跌 在 40 年 代 末 期 
EIRE RR FIFE T RR 


上 面 的 坐标 图 中 ，y 轴 的 线性 刻度 突出 显示 了 1940 年 后 的 迅速 增长 ， 但 却 把 五 分 之 三 的 数据 
压缩 到 了 图 下 端 五 分 之 一 的 区 域内 ， 这 就 隐藏 了 很 多 信息 。 下 面 的 坐标 图 ， 以 对 数 刻度 凸显 了 话 
机 增长 率 ， 对 数 线性 图 中 的 直线 表示 几何 增长 率 〈 见 习题 4 及 其 答案 )。 


下 面 一 张 图 是 Bill Cleveland 点 图 的 一 个 变种 ， 可 以 替代 流行 的 条 状 图 。 它 将 图 形 和 制 表 的 方 
法 结合 起 来 显示 Ritchie 与 Thompson 的 论文 “The UNIX Time-Sharing System” 中 的 数据 ， 该 论文 
发 表 在 1974 年 7 月 的 《ACM 通 讯 》 上 。 论 文中 我 们 用 来 获取 数据 的 表 列 出 了 所 有 占 CPU 时 间或 指 
令 调 用 时 间 2% 以 上 的 命令 。 关 于 CPU 时 间 的 数据 可 以 帮助 减少 运行 时 间 〈 这 上 比 我 们 在 第 1 章 中 看 
到 的 监视 更 高 一 层 )， 而 关于 指令 调用 的 数据 对 设计 用 户 界 面 是 有 帮助 的 。 两 种 情况 都 显示 ， 占 
一 半 以 上 使 用 率 的 命令 数量 不 超过 10 个 。 





0 5 10 14 0 5 19 15 
CPU 利用 百分比 命令 访问 百分比 
《前 8 项 占 62.7%) 《前 9 项 占 59.1%) 


许多 图 形 系统 可 以 在 下 面 这 种 曾经 很 受 欢 迎 的 饼 状 图 中 很 容易 显示 数据 。 这 很 不 垃 ， 因 为 所 
图 几乎 总 可 以 更 好 地 显示 同样 的 数据 。 我 的 观点 是 有 证 据 支 持 的 ， 实 验 显 示 ， 人 眼 对 长 度 的 区 分 
8& 力 比 对 角度 的 区 分 能 力 强 。 然 而 ， 公 正 地 讲 ， 饼 状 图 有 时 也 是 有 效 的 。1987 年 9 月 的 Princeton 
Engineer 杂 志 用 下 图 对 “普林斯顿 是 否 过 于 近亲 繁殖 ? ”这 一 质疑 给 出 了 答复 。 


No 100% 


饼 状 图 用 来 显示 “100%” 这 个 数 时 是 好 的 ， 点 状 图 则 更 适合 显示 复杂 的 数据 集合 。 
不 同 的 数据 集合 需要 不 同 的 显示 方式 ， 下 表 给 出 了 本 书 中 用 到 的 数据 集合 的 图 形 显示 方式 : 





图 形 显示 方式 
Fi FH 
散 点 图 
茎 与 叶 图 
时 序 图 
点 图 
















11.6 地 图 时 序 

12.2 SIR 

12.2 直方 图 
多 时 序 图 


方块 和 胡须 图 
11.3 原理 


绘制 生动 的 图 需要 多 样 的 技术 。 图 作者 必须 对 应 用 程序 足够 理解 才能 决定 应 当 概 括 哪些 数 
据 ， 必 须 足 够 领会 数据 的 含义 才能 避免 得 出 没有 根据 (或 错误 ) 的 结论 ， 而 且 必 须 选 择 合适 的 媒 
介 《〈 可 能 是 墨 或 激光 打印 机 ) 来 设计 并 实现 图 。 本 节 将 列 出 与 这 些 活动 有 关 的 原则 ， 多 数 原 则 都 
是 从 参考 书目 中 获得 的 。 
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图 的 表现 力 。 图 可 以 简洁 明快 地 描述 一 系列 复杂 的 关系 。 最 生动 的 图 只 需要 眼睛 来 看 而 不 需 
要 大 脑 去 想 ， 也 就 是 说 ,读者 体会 图 意 时 应 当 更 多 地 凭借 视觉 系统 而 不 是 认 知 的 能 力 。 图 应 当 被 
用 来 显示 数据 的 结构 及 其 关系 , 而 很 少 被 用 来 显示 细节 。 因此 , 计算 机 系统 的 图 应 概括 普遍 的 细节 。 


统计 完整 性 。 对 于 任何 形式 的 专业 情报 , 准确 性 都 是 基本 要 求 。 因此 内 容 成 为 图 的 第 一 考量 : 
度量 单位 合适 吗 ? 图 中 凸显 的 趋势 有 什么 统计 学 意义 吗 ? 数据 是 否 受 到 污点 取样 的 干扰 ? 图 的 
形式 也 会 误导 读者 :其 标记 是 否 合适 ? 标 绘 数据 的 符号 和 数据 大 小 相称 吗 ? Huff 所 车 的 How to 
Lie with Statistics* 一 书 对 这 些 问题 做 了 精彩 讲述 。 


美观 。 图 要 刺激 读者 对 数据 的 兴趣 ， 为 此 ， 图 必须 引 人 注目 。 另 一 方面 ， 图 的 目的 是 显示 数 
据 ， 而 非 吸引 眼球 。 因 此， 优雅 的 图 设计 简单 又 能 突出 数据 。 美 图 设计 的 有 效 方法 是 ， 从 简单 的 
(最 好 是 大 家 都 熟悉 的 ) 形式 入 手 ， 擦 掉 多 余 的 墨水 。 


过 程 。 最 棒 的 图 并 非 来 自 于 程序 员 的 一 时 灵感 而 通常 都 是 特定 过 程 多 次 迭代 的 结果 。 这 一 特 
定 过 程 分 三 阶段 : 探索 阶段 ， 完 全 忽略 图 的 外 观 ， 只 集中 显示 数据 趋势 ， 下 一 步 ， 确 证 阶段 ， 利 
用 基本 统计 学 (或 至 少 用 常识 ) 来 确定 数据 趋势 是 有 意义 的 ; 最 后 ， 表 达 阶 段 ， 选 择 图 的 最 终 形 
式 并 用 适当 的 媒介 作 图 。 


切忌 过 火 。 过 去 ， 做 图 之 难 令 我 们 没 办 法 亲 目 动手 。 如 今 又 面临 相反 的 难题 ， 作 图 软件 包 的 
便利 往往 会 引 谤 程序 员 笋 用 其 功能 。“1980 年 美国 出 生 的 婴儿 中 ，51.27% 为 男孩 。” 这 样 一 句 话 就 
能 表达 的 意思 ， 你 为 什么 还 要 自 找 麻烦 地 画 下 这 么 一 张 诡异 的 图 来 描述 呢 ? 


Rabies Born on 1980 


(includes only children less 
than one year old as of 
January 1, 1981.) 


r=- 

l 

1 48.73%! 

I i 

L -ed 
Fimale 





由 计算 机 生成 图 形 化 数据 显示 的 前 景 是 光明 的 , 注意 遵守 上 述 原则 ， 别 让 其 他 人 看 到 你 的 图 
之 后 丧失 对 这 一 领域 的 信心 。 


11.4 习题 


1. 实验 不 同 数据 的 表达 。 考 虑 这 样 的 问题 : 


O 该 书 中 译 版 已 由 上 海 财经 大 学 出 版 社 出 版 ， 中 文书 名 《统计 陷阱 》。 一 一 编者 注 
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a. 媒介 。 图 是 表达 数据 的 最 好 形式 吗 ? 用 文本 或 表 可 以 吗 ? 

b. 形式 。 你 选择 了 最 好 的 图 形 显 示 方 式 吗 ? 你 的 数据 应 该 用 散 点 图 、 直 方 图 还 是 时 间 序 列表 
示 ? 坐标 变量 的 选择 合适 吗 ? 比如 ， 电 话机 那 张 图 ， 我 们 应 该 选择 每 年 的 话机 总 数 呢 ， 还 
是 每 年 电话 机 数量 的 增长 率 呢 ? 如 何在 图 中 绘制 额外 的 信息 《比如 说 每 户 的 电话 数 ) 以 供 
研究 ? 刻度 应 该 用 线性 的 还 是 对 数 的 ， 或 者 其 他 的 某 种 变换 形式 ? 

c. 执行 。 图 的 最 佳 局 部 结构 是 什么 ? 除了 刻度 ， 散 点 图 和 时 间 序 列 图 是 否 也 可 以 在 背景 中 使 
用 格子 ? 说 明 刻 度 的 数量 和 位 置 ， 以 及 坐标 轴 应 当 用 什么 来 标记 。 


2. [E. Tufte] 图 的 混乱 分 散 了 读者 对 数据 的 注意 。 试 着 删除 一 张 图 中 的 某 些 组 成 部 分 。 如 采 你 个 具 
有 可 以 利用 的 计算 机 系统 ， 那 就 试 试 先 把 图 复制 几 份 然后 用 白色 “修正 液 ” 涂 去 多 余 的 部 分 。 
不 断 试验 直到 结果 让 你 满意 为 止 。 我 发 现 这 方法 对 我 自己 的 图 特别 有 帮助 : 越 简单 的 图 越 能 
在 第 一 时 间 吸 引 人 的 注意 ， 而 且 对 数据 的 表现 力也 更 强 。 


3. [P A. Tukey] Chambers、Cleveland、Kleiner 和 Tukey 合 写 的 Grappical Methods for Data Analysis 
一 书 在 1983 年 由 Wadsworth 国 际 集团 出 版 《平装 版 由 Duxbury 出 版 社 出 版 ，。 附 录 7 总 结 了 1979 
年 美国 境内 销售 的 74 坎 机 动车 的 13 种 性 能 参数 。 下 表 并 不 是 简单 地 列 出 74 项 每 加 仑 类 里 数 以 
及 汽车 重量 的 数据 ， 而 是 在 第 -- 栏 给 出 了 每 加 仑 英里 数 ， 后 面 各 栏 给 出 了 相应 所 有 汽车 的 重 
量 。 第 一 行 表 明 一 加 仓 油 可 行驶 12 英 里 的 汽车 有 两 款 ， 其 重量 分 别 是 4720 磅 和 4840 磅 。 
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除了 给 出 数据 集合 ， 该 图 又 是 一 张 直方 图 ， 和 11.2 节 的 荃 与 叶 显 示 方 式 类 似 。 试 着 找 出 重量 与 
IMC BR NKR 


4. 解释 一 下 ， 为 什么 当 x 和 y 都 使 用 对 数 刻 度 时 ， 关 系 y = a x 在 坐标 图 上 会 是 一 条 直线 。 再 解释 
一 下 ， 为 什么 当 x 使 用 线性 刻度 ，y 使 用 对 数 刻度 时 ， 关 系 y = a x 大 是 一 条 直线 。a 和 1 在 坐标 图 
上 是 如 何 反映 的 ? 你 将 用 怎样 的 刻度 来 表达 关系 = aVx+B? 


. 写 一 个 程序 以 图 形 方式 显示 系统 随机 数 生成 器 的 输出 。 最 简单 的 方式 是 把 生成 数字 段 等 分 成 
块 ， 然 后 用 直方 图 显示 每 块 中 随机 数 的 计数 总 数 。 尽 管用 这 种 图 形 方 式 你 可 以 很 容易 就 识别 出 
一 个 缺乏 随机 性 的 生成 器 ， 但 在 你 批评 一 个 随机 性 似 有 似 无 的 生成 器 之 前 ， 还 是 最 好 先 参考 一 
下 Knuth 写 的 《计算 机 程序 设计 艺术 ， 卷 2; 半数 值 算 法 》" 一 书 的 3.3 节 。 


11.5 ”深入 阅读 

Darrell Huff 所 写 的 How to Lie with Statistics (1954 年 由 W. W. Norton & Company 公 司 出 版 ， 多 
次 重印 ) 一 书 对 于 关注 大 众 媒体 以 及 阅读 技术 文献 的 人 来 说 应 该 人 手 一 本 ,你 当然 也 可 以 质疑 这 
种 说 法 。 书 中 给 出 了 很 多 办 法 来 有 倾向 性 地 用 图 来 反映 观点 ， 并 且 训 练 你 提出 关于 图 的 问题 。 但 


如 果 你 想 上 自己 总 结 数据 ， 则 毋庸 置疑 ， 你 必须 阅读 这 本 迷人 的 书 。 其 中 包括 如 何 进 行 统计 学 总 结 
以 及 如 何 有 效 地 用 图 形 化 手段 呈现 统计 学 总 结 的 原则 。 


Edward Tufte #4) Visual Display of Quantitative Information 既 是 咖啡 桌 上 的 漂亮 装饰 又 是 程序 
员 的 一 大 激励 。 书 中 假设 你 已 经 总 结 了 数据 ， 集 中 讨论 图 形 化 设计 与 完善 的 原则 。Tufte 搜 集 了 18 
到 20 世 纪 的 图 形 化 杰作 ，11.6 节 中 拿破仑 的 俄罗斯 战役 就 是 其 中 一 例 。 本 书 只 能 直接 从 出 版 商 那 
里 买 到 ， 定 价 34.00 美 元 ， 邮 购 地 址 : Graphics Press, Box 430, Cheshire, Connecticut 06410. 


Bill Cleveland 写 的 Blements of Graphing Data 由 Wadsworth 公 司 于 1985 年 出 版 。 作 者 阐述 了 创 
建 图 的 基本 原则 ， 并 调查 了 许多 图 形 化 方法 ， 这 些 方法 的 分 类 基于 其 显示 的 数据 种 类 。 迷 人 的 数 
据 集合 与 漂亮 的 图 形 化 设计 让 阅读 过 程 变 得 愉悦 ， 书 中 的 图 形 化 设计 原则 值得 认真 研习 。 如 果 你 
想 用 图 形 化 方法 表达 并 分 析 数 据 ， 那 么 本 书 正 是 为 你 写 的 。 


11.6 拿破仑 远征 莫斯科 (边栏) 


你 如 何 概括 拿破仑 1812 年 在 俄罗斯 战役 中 的 挫败 ? 很 多 程序 员 会 试 着 用 行 式 打印 机 打出 几 十 
厘米 的 输出 ， 给 出 每 天 的 人 员 数 量 、 军 锦 以 及 驻军 地 点 的 变化 ， 并 用 星 号 标明 每 周 、 每 月 的 数据 。 
法 国 工程 师 Charles Joseph Minard 在 1861 年 用 一 种 不 同 的 方式 来 描述 这 个 问题 ， 只 用 一 张 简单 的 图 
来 总 结 该 次 战役 。Edward Tufte 对 这 一 工作 的 评价 很 有 代表 性 : “这 很 可 能 是 有 史 以 来 最 好 的 统计 
学 绘图 。” 我 花费 了 一 下 午时 间 就 用 Pic 语 言 绘制 了 Minard 的 图 并 稍微 做 了 一 些 更 新 。 
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O 该 书 第 3 版 的 英文 影印 版 已 由 人 民 邮 电 出 版 社 出 版 ， 中 译 版 也 即将 由 人 民 邮 电 出 版 社 出 版 。 a ot 
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上 面 那 条 带 显示 了 从 1812 年 6 月 23 日 拿破仑 主力 军队 穿 过 涅 曼 河 到 9 月 14 日 占领 莫斯科 期 间 
的 行军 路 线 。 带 宽 与 军队 规模 《从 422 000 人 减少 到 100 000 人 ) 成 比例 。 下 面 那 条 带 (颜色 较 深 
的 ) 显示 从 10 月 末 开 始 撤退 到 12 月 26 日 10 000 幸 存 者 逃 过 涅 曼 河 的 军队 规模 。 两 次 保护 法 军 侧 辟 
的 行动 也 类 似 地 给 出 了 表示 。 带 附近 的 数 给 出 了 以 于 人 为 单位 的 军队 规模 。 底 端的 图 要 从 右 向 左 
读 ， 其 中 显示 了 撤退 期 间 遇 到 的 低温 天 气 及 其 日 期 。 


本 图 给 出 了 与 地 图 上 的 城市 、 河 流 等 背景 相关 联 的 六 个 变量 ; -驻军 地 点 (经 纬度 )、 军 队 规 
模 、 行 军 方 向 、 气 温 以 及 日 期 。 从 中 可 以 看 到 一 支 军队 的 毁灭 与 一 个 帝国 走向 灭亡 的 起 点 。 


俄 军 最 初 的 战略 安排 是 打 持久 战 消耗 法 军 战斗 力 , 但 图 中 显示 了 几 场 关键 战役 。9 月 7 日 的 博 
罗 金 诺 战 役 对 双方 来 说 都 是 胜利 。11 月 3 日 的 Viasma 战 役 ， 俄 军 几 乎 歼灭 了 法 军 的 后 方 军 。11 月 
ISH BISA RATER CORRE) 展开 了 一 场 持续 4 天 的 运动 作战 。 图 中 突出 显示 
了 11 月 26 日 到 28 日 法 军 渡 过 Studenka 的 别 列 津 纳 河 时 受到 的 致命 重创 ， 几 天 前 的 一 次 解冻 阻塞 了 
河 路 ， 而 渡河 过 程 中 和 撤退 的 剩余 阶段 里 ， 气 温 急 剧 下 降 到 致命 的 极限 。 


本 图 中 ， 气温 起 到 了 突出 作用 ,这 原本 来 源 于 法 国 一 方 的 解释 。11 月 最 后 一 周 的 持续 低温 到 
来 之 前 , 俄罗斯 的 冬天 其 实 相 当 温 和 ， 而 那 时 法 国 军队 已 经 差不多 被 消灭 了 。 法 国 方面 关于 这 场 
仗 的 解释 最 初 来 源 于 拿破仑 本 人 的 一 份 报告 其 中 指责 了 寒冷 这 一 天 灾 , 而 俄罗斯 方面 却 从 不 打 
算 把 天 气 因素 作为 焦点 。 


我 保留 了 Minard 原 图 的 基本 结构 ， 包 括 他 用 到 的 所 有 数 〈 甚 至 有 些 准 确 性 值得 怀疑 的 数 )， 
在 图 的 外 观 上 我 做 了 一 些 改动 : 城镇 使 用 它们 现在 的 名 字 ， 比 例 尺 使 用 英里 而 不 是 里 格 ?， 温 度 
使 用 华氏 度 作 为 单位 而 不 是 列 氏 度 *， 日 期 使 用 英文 。( 地 理 知 识 参考 ; Kovna 市 在 立陶宛 ， 位 于 
现在 波兰 边境 东北 方 约 50 英 里 处 ， 莫 斯 科 西 边 约 $00 英 里 。) Tufte 重 新 打印 了 Minard 的 原 图 并 在 
Visual Display of Quantitative Information 一 蔬 的 第 40 和 41 页 对 该 图 进行 了 热情 而 赞赏 有 佳 的 描述 。 


@ 里 格 〈league) 是 旧 长 度 单位 ，1 里 格 = 3 英里 ，1 英 里 = 1.609 千 米 。 一 一 译 者 注 


D 现在 常用 的 是 摄氏 度 ， 华氏 度 减 去 32 青 乘 以 5/9 就 是 摄氏 度 。 一 一 译 者 注 





对 调查 的 研究 


人 们 部 知道 调查 。 美国 新 闻 界 经 常 向 民众 发 出 民意 调查 ,调查 主题 从 总 统 的 声望 到 喜欢 吃 哪 
种 爆 米 花 五 花 八 门 。1980 年 我 有 机 会 了 解 到 一 点 这 些 调查 背后 的 机 制 。 我 为 民意 调查 公司 安装 个 
人 电脑 并 为 他 们 写 自动 化 程序 ， 帮 助 他 们 提高 活动 效率 。 


本 章 第 一 节 简 单 介绍 民意 调查 的 背景 。 后 续 的 两 节 概 述 该 系统 较为 有 趣 的 两 部 分 。 第 二 节 讨 
论 用 来 描述 调查 的 小 语言 ， 第 三 节 描述 数据 的 图 形 显示 技术 ， 这 部 分 技术 被 加 入 到 该 公司 的 报告 
之 中 。 | . 

第 9 章 、 第 10 章 和 第 11 章 详 述 了 设计 计算 机 输入 与 输出 的 一 般 原 则 。 其 中 给 出 的 例子 对 一 些 
程序 员 来 说 可 能 相当 诡异 。 因 此 本 章 将 把 这 些 技术 应 用 到 一 个 普通 的 数据 处 理 系 统 上 , 该 系统 是 
用 微机 上 的 BASIC 语 言 实 现 的 。 , 


12.1 有 关 民 意 调 查 的 问题 


我 在 1980 年 底 为 那 家 公司 安装 了 首 批 电脑 : 3 台 48 KB 的 微型 计算 机 。 需要 自动 化 的 业务 有 一 
些 在 所 有 小 公司 里 都 是 很 常见 的 ， 比 如 计算 薪金 总 额 。 然 而 多 数 业务 却 是 民意 调查 行业 专 有 的 。 
例如 ，5.2 节 的 答案 3 里 的 简单 程序 对 绘制 随机 取样 曲线 就 是 有 帮助 的 。 


下 面 是 关于 民意 调查 的 简单 概述 。 ON ea ae 4 给 出 一 些 必 要 的 
想法 。 有 下 面 3 项 基本 的 数据 处 理 任 务 。 

e 输入 : 采访 者 向 被 采访 者 提出 问题 。 一 些 组 织 用 问卷 的 形式 进行 调查 ， 调 查 结果 稍 后 会 
手动 输入 到 数据 库 中 ， 男 一 些 组 织 通 过 计算 机 进行 调查 并 在 线 记 录 结 果 。 

o 确认 : 调 但 的 一 致 性 和 完整 性 要 经 过 多 次 核对 。 一 些 核 对 是 全 局 的 :每 一 个 答卷 人 都 恰 
好 在 数据 库 中 记录 了 一 次 吗 ? 有 些 核 对 只 针对 单个 记录 : 所 有 问题 都 回答 了 吗 ? 回答 都 
有 效 吗 ?“ 仅 民主 党 人 回答 ”的 问题 是 不 是 发 给 了 所 有 民主 党 人 并 且 只 发 给 了 民主 党 人 ? 

o 建立 表格 并 输出 : 问卷 数据 库 完成 后 ， 调 查 结果 被 列 成 表格 写 进 最 终 报 告 中 。 报 告 主体 
对 每 个 调查 的 问题 用 一 页 来 曾 述 。 其 他 材料 则 包括 封 页 、 目 录 、 调 查 方 法 的 描述 以 及 对 
主要 趋势 的 总 结 。 | 
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下 一 节 给 出 小 语言 对 上 述 3 项 任务 的 用 处 ， 再 下 一 节令 述 一 些 集成 到 最 终 报告 中 的 图 形 化 
技术 。 
12.2 语言 


我 创建 的 系统 有 3 类 程序 ， 每 类 程序 对 应 上 节 的 一 项 基本 任务 。 通 过 一 种 小 语言 的 朱 述 ， 程 
序 就 可 以 专门 从 事 某 种 特定 的 调查 。 这 里 用 到 的 小 语言 我 起 名 为 BPL， 即 “Basic Polling 
Language” 的 简称 。 下 面 是 用 BPL 描 述 的 一 项 调查 的 第 一 部 分 : 

01,5 What is your political party? 

1 Democrat 
2 Republican 
3 Other 
Q2,6 For whom did you vote in 1984? 
1 Reagan/Bush 
2 Mondale/Ferraro 
3 Named Other Candidate 
4 Didn't Vote 
5 Don't Know 
Q3,7 Where is your polling place? 
1 Named a place 
2 Did not name a place 
04,8 In this election, are you 
1 Very interested 
2 Somewhat interested 
3 Not interested 


以 Q 开 头 的 行 描述 一 个 问题 : 例如 ， 问 题 1 存 储 在 每 个 记录 的 第 五 栏 里 ， 它 询问 答卷 人 的 政治 
和 党派 。 其 后 三 行 是 问题 的 备 选 答案 。 问 题 下 的 答案 使 用 缩 进 排版 ， 便 于 阅读 。 


对 于 之 前 提 到 的 3 类 不 同 程序 来 说 ，BPL 是 输入 语 诗 。 

e 输入 : 交互 式 程序 可 以 根据 BPL 的 描述 自动 执行 调查 并 存放 结果 到 数据 库 中 。 如 果菜 组织 
使 用 纸 质 问卷 , 那么 可 以 用 “智能 打印 ”程序 读 入 BPL 文 件 并 准备 全 部 复制 , 然后 用 一 个 
数据 入 口 程 序 描 述 记录 格式 。 

o 确认 : 根据 BPL 描 述 ， 程 序 可 以 保证 所 有 问题 都 得 到 了 回答 并 且 答 案 全 部 有 效 。 我 们 马上 
束 会 看 到 为 一 个 小 语言 是 上 怎样 用 来 进行 更 精细 的 核对 的 。 

o 建立 表格 并 输出 : BPL 描 述 把 输入 提供 给 程序 ,然后 程序 生成 调查 的 最 终 报告 。 用户 可 以 
用 必 一 种 简单 语言 描述 报告 中 出 现 的 标题 、 哪 些 问题 需要 建 记 复合 表 ， 以 及 复合 表 的 表 头 。 


就 像 描述 计算 的 Fortran 语 言 能 在 许多 机 器 上 编译 并 执行 一 样 ， 一 个 调查 的 BPL 描 述 也 可 以 被 解释 
以 执行 多 种 不 同 的 任务 。 


这 里 我 忽略 了 很 多 细节 ， 这 些 细节 足以 让 调查 程序 变 得 相当 复杂 。 例 如 ， 尽 管 间 题 的 顺序 是 
固定 的 ， 用 户 却 可 能 希望 它们 的 输入 顺序 不 同比 如 ， 按 回答 率 由 高 到 低 排序 )。 马 上 我 们 就 会 
看 到 一 些 别 的 细节 。 最 初 设计 这 一 程序 时 , 我 拟定 了 多 种 方案 , 后 来 才 发 现 这 简直 就 是 事倍功半 
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我 永远 也 无 法 预料 用 户 需 要 的 所 有 选项 , 而 且 任 何 程序 一 旦 想 处 理 所 有 选项 ， 那么 代码 必定 会 像 
ERNA ERLIE. 


于 是 我 寻求 更 一 般 的 机 人 制 来 解决 问题 并 最 终 利用 一 种 被 我 称 为 伪 栏 目的 结构 完成 了 任务 。 
“ 真 ” 数 据 存放 在 输入 记录 的 1~250 栏 中 。 每 条 记录 被 读 取 的 同时 , 程序 从 251 栏 开始 生成 伪 栏 目 。 
用 户 用 另外 一 种 小 语言 定义 伪 栏 目 。 早 先 我 们 看 到 的 BPL 描 述 告诉 我 们 栏目 5 包含 政 党 信息 ， 顺 
序 依次 为 民主 党 、 共 和 党 、 其 他 。 要 想 把 共和 党 打印 在 民主 党 之 前 ， 只 需 如 下 定义 251 栏 : 
define 251 
1 if 5 is 2 # Republican 


2 if 5 is 1 # Democrat 
3 otherwise # Other 


和 Pic 语 言 中 一 样 ， 字 符 # 引 出 注释 。 用 户 现 在 就 可 以 引用 2S1 栏 了 : 


01,251 What is your political party? 
1 Republican 
2 Democrat 
3 Other 


另外 一 项 常见 任务 是 字段 归并 。 比 如 ， 用 户 可 能 想 将 3 个 年 龄 范围 21~25、26~30 以 及 31~35 
归并 成 为 一 个 范围 21~35。 假设 第 19 栏 包含 以 5 年 为 一 块 的 年 龄 信息 ,可 以 像 下 面 这 样 创建 252 栏 ， 
使 年 龄 范围 粒度 更 粗 : 
define 252 # age, bigger lumps 
1 if 19 is i # below 21 


2 if 19 is 2,3,4 # 21-35 
3 i£ 19 is 5,6,7 # 36-50 


4 otherwise # over 50 
伪 栏 目 在 识别 “高 倾向 性 ”投票 人 方面 有 一 套 更 复杂 的 应 用 ， 这 样 的 人 在 投票 时 最 有 可 能 暴露 : 
define 253 # 1 if high-propensity 


1 if 6 is 1,2,3 and 7 is 1 and 8 is 1,2 
2 otherwise 


当 且 仅 当 应 答 者 能 够 记得 他 或 她 在 1984 年 的 候选 者 〈 第 6 栏 )， 能 够 说 出 他 或 她 投票 的 地 点 〈 第 7 
栏 )， 并 且 对 本 次 选举 感 兴趣 〈 第 8 栏 ) 时 ， 上 面 定义 的 伪 栏 日 才 为 1。 这 个 例子 给 出 了 伪 栏 目 最 
复杂 的 形式 ， 类 似 于 布尔 代数 中 的 “ 合 取 范式 ”。 


伪 栏 目 解 决 了 我 在 设计 阶段 和 其 他 从 没 想到 过 的 阶段 所 能 遇 到 的 所 有 问题 。 尽 管 机 制 很 全 
面 ， 但 实现 起 来 却 也 容易 。 描 述 由 一 个 90 行 的 BASIC 程 序 读 取 并 存储 ， 然后 再 由 一 个 11 行 的 
BASIC 程 序 进行 解释 。 


除 小 语言 外 还 有 很 多 方法 可 以 处 理 调查 数据 。 在 设计 这 个 系统 之 前 , 我 浏览 了 一 本 有 关 分 析 
和 处 理 公 众 意见 调查 的 本 科教 材 。 作 者 阐述 了 输入 、 确 认 和 建 表 的 问题 ， 并 建议 对 每 一 项 调查 任 
务 都 从 头 写 一 个 全 新 的 程序 。 他 们 甚至 提供 了 流程 图 和 Fortran 示 例 代 码 。 这 种 方法 在 学 校 里 可 能 
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会 有 用 《〈 它 当然 会 给 计算 机 科学 专业 的 学 生 们 带 来 工作 )， 但 对 于 一 个 小 公司 来 说 却 是 不 可 行 的 。 


我 曾 认 真 考 虑 过 去 创建 一 个 交互 式 程序 。 最 初 听 起 来 很 简单 : 提问 、 回 答 、 下 一 问 。 随 着 探 
索 的 深入 ， 我 却 发 现 自己 几乎 是 在 设计 一 个 文本 编辑 器 。( 我 想 对 问题 35 稍 做 改动 。 改 哪 部 分 ? 
一 个 选项 。 哪个 选项 ? 3, 可 能 , 但 请 让 我 看 看 全 部 选项 。 MY, 4. HE “Smith” HR “Smythe” , 
其 他 选项 不 变 ……) 最 终 我 放弃 了 区 互 的 方式 ， 开 始 考虑 用 小 语言 来 描述 调查 〈 并 把 编写 工作 留 
给 了 标准 文本 编辑 器 )， 于 是 工作 有 了 进展 。 


一 且 程 序 员 决定 了 实现 系统 的 大 概 方式 ， 就 剩 下 小 语言 设计 的 任务 了 。 我 为 之 工作 的 那 家 公 
司 之 前 使 用 一 个 通用 的 制 表 程序 ， 该 程 厚 余 穿 孔 卡 片 中 读 取 输入 以 及 调查 问题 的 数据 库 。 < AUJA 
述 的 那 项 调查 在 该 程序 中 将 如 下 给 出 


QS0053001What is your political party? 
OS0063002For whom did you vote in 1984? 
QS0073003Where is your polling place? 
Q0S0083004In this election, are you 
ST0052001Democrat 

STO052002Republican 

ST00520030ther 

ST0062001Reagan/Bush 
STO0062002Mondale/Ferraro 
STOO62003Named Other Candidate 
STO062004Didn't Vote 

STO062005Don't Know 

STO0072001Named a place 

STOO072002Did not name a place 
STO082001Very interested 
STO082002Somewhat interested 
STOO82003Not interested 
STO0054004Total Responses 
STO0064006Total Responses 
ST0074003Total Responses 
STOO084004Total Responses 


以 “QS ”开头 的 行 描 述 问 题 ，“ST” 或 “stub” 行 表示 选项 。 那 些 神 秘 的 >、3、4 编 码 在 我 
的 程序 中 是 通过 伪 栏 目 实现 的 。 


各 种 小 语言 是 不 尽 相同 的 。 本 例 的 小 语言 对 程序 员 《〈 他 们 写 的 汇编 代码 让 你 根本 无 法 猜测 其 
含义 ) 而 言 很 易 用 但 却 难为 了 一 般 用 户 。BPL 语 言 几乎 包含 了 同样 的 信息 ， 格 式 却 更 合理 。 本 例 
的 描述 中 , 全 部 问题 写 在 全 部 答案 之 前 ,与 机 器 的 存储 顺序 一 样 。 而 BPL 却 按 用 户 的 想法 来 布局 ， 
答案 直接 放 在 相应 的 问题 之 后 。 本 例 所 用 的 固定 栏 输入 格式 很 糟糕 ， BPLHY E BA A REE AH 
着 舒心 。BPL 为 每 个 问题 都 提供 了 一 行 ， 专 门 放 答 案 。 


语言 观点 局 发 下 得 到 的 新 程序 比 大 型 机 上 的 老 程 序 更 易于 使 用 。 老 程序 使 得 雇员 要 花 大 概 两 
天 时 间 在 卡片 上 打 和 孔 以 描述 一 项 调查 , 然后 运行 多 台电 脑 来 对 其 进行 调试 。 同样 的 任务 交 给 新 程 
序 来 做 只 需要 两 个 钟头 ， 而 且 多 数 输入 都 是 第 一 次 运行 。 
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每 当 那 家 公司 进行 一 项 调查 时 , 很 多 数据 就 要 被 总 结 概括 。 以 一 个 常见 的 政治 研究 调查 为 例 ， 
有 800 人 参与 ， 每 人 被 问 及 70 个 问题 。 最 终 报告 对 每 个 问题 都 用 一 页 纸 来 总 结 ， 其 中 会 给 出 选 不 
同 答案 的 人 数 占 全 体 和 一 些 特 殊 分 组 的 百分比 ， 比 如 共和 党 、 民 主 党 、 男 性 和 女性 。 


尽管 报告 中 许多 细节 都 非常 有 意思 ,但 报告 的 大 小 却 成 为 许多 读者 的 屏障 。 因 此 ， 报 告 需 要 
有 一 个 简短 的 “概要 ”。 现 在 我 来 概述 最 初 的 概要 和 它 新 的 图 形 化 形式 。 


总 结 数 据 之 前 必须 先 判定 什 么 是 读者 希望 看 到 的 。 政客 通常 关心 地 理 区 域 的 支持 率 以 及 和 过 
去 的 对 比 。 本 节 集 中 讨论 的 方面 在 20 世 纪 80 年 代 中 期 曾 引起 很 多 媒体 关注 ， 即 男性 和 女性 政治 观 
所 上 的 “性 别 差 异 ”。 数 据 来 自 于 1983 年 底 新 墨西哥 州 举行 的 一 项 800 人 参与 的 民意 调查 。 

一 系列 问题 都 跟 即 将 到 来 的 1984 年 总 统 选举 有 关 。 竞选 者 有 现任 共和 党 总 统 罗 纳 德 。 里 根 以 
及 几 位 可 能 的 民主 党 候选 人 。( 如 果 里 根 遇 到 的 竞争 对 手 是 蒙 代 尔 , 你 将 选 谁 ? 如 果 遇 到 格林 或 哈 
特 呢 ? ) 报告 中 长 达 几 页 的 数据 被 概括 到 了 一 页 打印 表 中 : 


s Reagan Democrat Don't Know 

Walter Mondale 

Total 49,4% 36.6% 14.0% 

Male 58.1% 30.3% 11.7% 

Female 40.6% 43.1% 16.4% 
John Glenn 

Total 48.0% 38.4% 13.5% 

Male 54.6% 34.7% 10.7% 

Female 41.3% 42.1% 16.6% 
Gary Hart 

Total 50.8% 28.4% 20.8% 

Male 58.1% 25.3% 16.6% 

Female 43.3% 31.5% 25.2% 





表 的 第 一 行 显示 ,在 里 根 与 蒙 代 尔 的 竞选 情况 下 ，49.4% 的 参与 调查 者 会 选 里 根 ，36.6% 的 人 会 选 
蒙 代 尔 ， 其 余 14.0% 未 知 。 下 一 行 给 出 了 男性 调查 者 的 相应 百分比 。 这 些 数据 可 以 用 一 组 条 状 图 
进行 图 形 化 显示 : 


Democrat Reagan 
Mondale [| 
Male 
Glenn | 
Male 
Female 
Hart 
Male 
Female 
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虚线 代表 能 脏 得 选举 的 50% 得 票 率 。 条 带 之 间 的 空白 代表 了 那 “ 未 知 ” 的 情况 。 


尽管 事实 通过 两 种 方式 描述 ， 图 还 是 凸显 了 一 些 趋势 。 首 先 ， 进行 民意 调查 的 当时 当地 ， 总 
统 里 根 优势 明显 。 其 得 票 率 刚好 是 全 部 参与 调查 者 的 $0% 左 右 。 在 男性 选民 中 他 具有 压倒 性 优势 ， 
甚至 在 女性 选民 中 他 的 得 票 率 也 与 蒙 代 尔 和 格林 相近 并 高 于 哈 特 。 性 别 差异 是 明显 的 ， 这 既 可 以 
从 总 统 的 支持 情况 看 出 ， 也 能 从 女性 的 “未 知 ” 比 例 看 出 。 


条 状 图 并 非 最 好 的 图 形 化 显示 手段 ， 但 在 这 里 却 很 好 用 ， 因 为 几乎 所 有 读者 都 熟悉 它 。 其 简 
单 的 形式 让 人 们 很 容易 用 另 一 种 小 语言 对 其 进行 描述 ， 并 在 一 个 廉价 的 击 打 式 打印 机 上 轻松 实 
现 ， 只 要 它 具 有 图 形 字 符 集 。 


为 外 一 系列 问题 要 求 参 与 调查 者 为 几 个 被 选举 的 官员 的 政绩 打分 。 前 一 项 调查 的 概要 是 用 一 
个 百分比 的 表格 总 结 的 ， 新 的 调查 概要 用 下 图 给 出 : 


President Reagan 
Male 
Female 


Governor Anaya 
Male 
Female 


Senator Bingaman 
Male 


Female 


Senator Domenici 





Male 
Female 34S 
Poor 


第 二 行 显示 ， 男 性 中 12% 认 为 总 统 里 根 的 政绩 是 “杰出 的 ”，59% 认 为 “很 好 ”， 等 等 。 被 调查 
的 两 位 参议 员 , 只 有 2% 或 更 少 的 人 对 其 政绩 评价 为 “非常 糟糕 ”, 因此 这 些 回 答 就 被 合并 到 “ 糟 
me” 1X TH. 


上 面 这 一 系列 的 条 状 图 反应 了 几 个 趋势 .Anaya 州 长 在 当时 比较 不 受 公众 欢迎 。Bingaman 议 
员 并 不 为 公众 所 熟知 , 但 在 知道 他 的 公众 眼中 其 受 欢迎 程度 很 高 。 几 乎 所 有 参与 调查 者 都 对 总 统 
里 根 发 表 了 意见 而 多 数 人 对 他 的 政绩 表示 满意 。Domenici 议 员 受 到 其 选民 的 热情 支持 。 调 查 中 ， 
仅 有 的 性 别 差异 似乎 存在 于 对 里 根 总 统 的 看 法 以 及 对 Domenici 议 员 的 “未 知 ” 比 例 中 。 


和 其 他 数据 一 样 ， 民 意 调查 应 放 到 特定 上 下 文中 理解 。 数 据 只 反应 了 调查 参与 者 的 意见 而 且 
是 特定 时 期 的 。 取 样本 身 就 会 引入 错误 。 老 报告 的 一 句 话说 “大 小 为 800 的 取样 规模 的 置信 区 间 
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为 95%， 上 下 浮动 不 超过 3.4%。” 新 报告 对 此 做 了 如 下 加 强 。 


我 们 用 一 百 次 计算 机 实验 给 出 了 取样 过 程 。 每 次 实验 (通过 计算 机 模拟 ) 抛 捕 800 
次 均匀 硬币 并 记录 头像 出 现 次 数 的 概率 ， 这 相当 于 从 新 墨西哥 选取 800 个 投票 人 并 按 
50%-50% 的 分 布 询问 他 们 的 意见 。 结 果 如 下 : 

<46.5% { 0} 

46.5-47.4 (1) X 

47.5-48.4 (13) XXXXXXXXXXXXX 

48.5-49.4 (22) XXXXXXXXXXXXXXXXXXXXXX 

49.5-50.4 (21) XXXXXXXXXXKXXXXKXXXKXX 

50.5-51.4 (27) XXXXKXXXXXXXXXXXXXXXXXXXXXXX 

51.5-52.4 (11) XXXXXXXXXXX 

52.5-53.4 ( 5) XXXXX 

>53.4% ( 0) 


中 间 一 行 说 明 ，100 次 实验 中 ， 头 像 出 现 的 概率 在 49.5%~50.4% 的 有 21 次 。70% 的 实 


验 与 真实 情况 的 误差 在 1.5% 之 内 ,所 有 实验 的 误差 都 在 3.5% 之 内 ,因此 我 们 有 理由 期 待 
民意 调查 有 相似 的 精确 程度 . 


老 报告 的 概要 一 节 包 含 大 约 十 张 百 分 比 数据 表 ， 每 张 表 占 一 员 。 新 的 概要 分 析 也 有 十 张 表 ， 
但 这 回 数 据 是 图 形 化 的 。 准备 图 比 准备 表 更 耗 时 : 表 只 需 秘 书 用 两 个 钟头 来 做 而 图 却 需 要 大 约 两 
倍 的 时 间 。 


图 值得 用 额外 的 两 个 钟头 来 准备 吗 ? 内 部 分 析 人 士 认 为 : 由 于 对 图 敏感 ， 他 们 可 以 在 一 移 之 
下 看 出 数据 的 趋势 。 老 客户 同样 认为 图 是 有 益 的 ; 很 容易 从 视觉 上 将 新 图 和 原 数据 集合 进行 比较 
并 显示 过 度 时 期 的 重要 变化 。 甚 至 一 次 性 的 客户 在 浏览 一 两 分 钟 后 也 认为 图 是 有 用 的 。 一 个 看 得 
见 的 好 处 就 是 ， 这 些 图 让 报告 看 起 来 更 让 人 兴奋 。 最 终 ， 公 司 在 概要 部 分 取消 了 所 有 的 表 并 代 之 
以 图 。 
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第 9 章 、 第 10 章 和 第 11 章 阐述 了 设计 输入 /输出 的 一 般 原则 并 给 出 了 生动 的 例子 。 本 章 将 同样 
的 原则 应 用 到 稍 显 乏 味 的 数据 处 理 环境 中 ， 而 结果 对 那 家 公司 来 说 却 决 不 乏味 。 


小 语言 。 第 9 章 的 多 数 语 言 是 由 程序 员 设 计 的 ， 而 且 也 是 为 程序 员 设 计 的 。 程 序 员 生 活 在 语 
言 之 中 ， 他 们 可 以 原谅 随处 可 见 的 融 难 上 度 语 法 ， 但 他 们 却 需 要 高 度 的 可 编程 性 。12.2 节 中 的 语言 
是 为 没有 计算 背景 的 人 设计 的 。 我 更 倾向 于 设计 易学 易 用 的 语言 。 


| 图 形 化 输出 。 第 11 章 的 多 数 图 形 只 能 在 高 级 软件 驱动 的 复杂 打印 机 上 打印 出 来 。12.3 节 的 条 
状 图 很 容易 就 能 在 击 打 式 打印 机 上 打印 出 来 , 而 这 种 打印 机 只 卖 几 百 美 元 。 而 且 我 坚持 使 用 简单 
且 为 人 所 熟悉 的 图 形 ， 对 用 户 可 别 使 用 对 数 刻度 ! 
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12.5 习题 


l. 


1X 6 ja] GUEKTBPLIB SE 

a. 书 中 的 例子 错误 地 假设 问题 或 选项 总 是 在 一 行 之 内 给 出 。 扩 展 语言 使 其 能 够 解决 多 行文 本 
的 问题 。 

b. 选项 编号 是 多 余 的 ， 因 为 它们 总 是 以 顺序 1、2、3……… 出 现 。 程 序 本 可 以 提供 编号 ， 可 为 什 
么 BPL 诸 言 却 坚持 要 让 用 户 来 提供 编号 呢 ? 

c. 设计 一 个 程序 上 自动 进行 调查 。 比 如 ， 描 述 一 种 机 制 来 保证 “ 仅 民 主 党 人 回答 ”的 问题 只 问 
民主 党 人 。 


.12.2 节 的 伪 栏 目 使 前 见 情 况 容 易 描述 。 用 它 来 描述 其 他 情况 也 是 可 能 的 ， 但 会 更 麻烦 一 些 。 假 


设 第 25 栏 和 第 33 栏 都 包含 从 1 到 4 的 数值 , 写 一 个 伪 栏 目 , 使 得 这 两 个 栏目 数值 相同 时 其 值 是 1， 
否则 是 2。 


. 使 用 习题 11.1 中 概述 的 技术 对 本 章 中 的 图 进行 改进 。 考 虑 如 下 问题 。 


a. 媒介 。 图 是 数据 最 好 的 显示 方式 吗 ?11.5 节 引用 了 Tufte 的 Visual Display of Quantitative 
.Jnformation 一 书 ， 该 书 179 页 认为 ， 百 分 比 “ 超 表 ” 更 适合 像 民意 调查 这 样 的 数据 。( 作 者 
给 出 的 表 比 本 章 给 出 的 大 得 多 ， 其 中 有 410 个 百分数 。〉 你 认为 哪 种 方式 的 表达 更 清晰 ? 

b. 样式 。 那 家 公司 的 一 位 员工 重 绘 了 12.3 节 中 的 第 一 张 图 , 样式 如 下 。 新 图 和 原 图 哪个 更 好 ? 

为 什么 ? 


Total Male Female 
Reagan 49.4 | 40.6 | 
Mondale 36.6 — 30.3 43.1 
Don’t Know | 14.0 | 11.7 | 16.4 | 
Reagan 380 
Glenn 347 
Don’t Know 10.7 16.6] 
Reagan 50.8 58.1 43.3 
Har 
Don't Know 166 


c. 执行 。 该 图 最 好 的 局 部 结构 是 什么 样 的 ? 比如 ， 条 状 图 中 的 百分数 有 帮助 吗 ? 


要 法 





航空 工程 师 摆弄 纸 飞 机 ， 结 构 工程 师 摆弄 徐 木 桥 ， 我 们 程序 员 摆弄 小 的 子 程序 。 这 些小 的 
子 程序 有 时 候 在 实际 程序 中 起 作用 ， 但 更 多 的 时 候 可 以 教授 我 们 更 多 编程 技艺 。 | 

(ACM 通讯 》 上 曾 有 3 个 不 同 的 讲 程序 的 专栏 。 其 中 ,“ 实 例 研究 ”(Case Studies) 描述 真 
实 的 计算 机 系统 ， 例 如 ， 航 班 订 票 系统 或 美国 宇航 局 的 载 人 航天 软件 ，; “文学 式 编程 ”(Literate 
Programming) “展示 能 容纳 在 几 页 纸 内 的 完整 程序 清单 ， 而 我 的 “编程 珠 现 ” (Programming 
Pearls) 栏目 则 包含 对 精微 子 程序 的 更 详尽 描述 。 、 : | 

第 13 章 描 述 Bob Floyd 的 随机 组 合 与 排列 生成 算法 ， 第 14 章 用 数值 分 析 技 术 开发 出 计算 
欧 氏 距离 的 高 效 子 程序 ， 第 15 章 讨论 有 序 集 的 基本 问题 ， 即 选择 集合 中 第 KK 小 的 元 素 。 

第 13 章 最 早 发 表 于 1986 年 8 月 的 《ACM 通讯 》 第 14 音 发 表 于 1986 年 12 月， 第 15 章 
发 表 于 1985 年 11 月 。 








第 13 章 绝妙 的 取样 
第 14 章 编写 数值 计算 程序 
第 15 章 选择 ae 





J Literate Programming Don Knuth 于 20 世 纪 80 年 代 提出 的 一 种 编程 方式 ， 其 理念 是 计算 机 程序 的 编写 应 该 像 创作 
文学 作品 那样 ， 把 可 读 性 放 在 重要 位 置 。 实践 中 通过 将 代码 和 文档 放 在 特殊 格式 的 同一 源 文件 中 实现 。 此 处 所 
说 的 专栏 由 贝尔 实验 室 Chris van Wyk 开 设 ， 从 1987 年 到 1990 年 ， 共 5 篇 文章 。 一 一 编者 注 | 





绝妙 的 取样 


在 纸牌 游戏 中 ， 如 果 让 计算 机 来 发 牌 ， 该 怎么 做 呢 ? 如 果 给 一 副 牌 中 每 张 牌 指定 从 1 到 $2 的 
一 个 整数 ， 就 可 以 从 1~52 范 围 内 “随机 取样 ”5 个 整数 来 得 到 一 手 牌 ， 例 如 : 


4 8 31 46 47 


《没有 重复 的 数 ， 这 很 重要 ， 我 想 ， 黑 桃 A 抓 多 了 对 人 可 不 怎么 好 9。) 随机 取样 也 出 现在 各 


种 不 同 应 用 中 ， 如 仿真 、 程 序 测试 和 统计 学 。 


本 章 第 一 节 回顾 随机 取样 的 几 个 标准 算法 。 随后 一 节 描述 Bob Fioyd 的 一 个 优雅 的 新 算法 (本 
章 第 一 次 在 《ACM 通 讯 》 上 发 表 的 时 候 ，Floyd 的 名 字 署 在 标题 下 标注 为 “ 特 邀 嘉宾 ”)。 第 三 节 
描述 Floyd 如 何 扩展 他 的 算法 以 产生 整数 随机 排列 。 


13.1 取样 算法 一 警 


在 产生 随机 样本 前 ， 先 要 设法 产生 单个 随机 数 。 假 设 函 数 RandTnt(L,U) REEL. UES 
分 布 的 一 个 整数 。 


在 不 考虑 重复 的 情况 下 ， 很 容易 产生 1..N 范 围 内 M 个 整数 的 随机 序列 : 


fOr I := 1 to M do 
print RandīInt (1,N) 


当 用 MM 为 12、N 为 3 来 调用 这 段 程 序 时 ， 代 码 生 成 以 下 序列 : 


2313311} 121131 


这 个 序列 可 以 在 下 一 次 玩 “ 石 头 -前 子 - 布 ”游戏 时 派 上 用 场 。 更 严肃 的 应 用 包括 测试 有 穷 状 态 机 
和 测试 排序 程序 〈 见 3.3 节 )。 


QD 西方 习俗 中 ， 黑 桃 A 是 不 吉利 的 符号 ， 有 时 代表 死亡 。 一 一 编者 注 

@ 如 果 没 有 RandInt 函 数 ， 可 利用 Rand 函 数 写 一 个 ， 表 达 式 是 z+int(Randx (U+1-L)), ，Rand 函 数 返回 [0. 1] 区 
间 上 均匀 分 布 的 一 个 随机 实数 。 在 系统 甚至 没有 Rand 程 序 的 罕见 情况 下 ， 可 参考 Knuth 的 《计算 机 程序 设计 艺 
A, 482: 半数 值 算法 》 一 书 。 但 无 论 使 用 系统 程序 还 是 自己 写 ， 都 要 注意 ，RandInt 返 回 值 应 在 L..U 范 围 内 ， 
超出 这 个 范围 则 犯 了 低级 错误 。 
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但 许多 应 用 都 要 求 随机 样本 中 没有 重复 元 素 。 例 如, 统计 分 析 中 , 重复 两 次 观察 同一 个 元 素 ， 
可 能 造成 工作 上 的 浪费 。 这 类 样本 通常 被 称 作 “无 重复 样本 ”或 “组 合 ”。 在 本 章 其 余部 分 中 ， 
“样本 ”这 个 词 就 表示 无 重复 元 素 的 随机 样本 。5.2 贡 的 解答 3 描述 了 这 种 程序 的 一 个 应 用 。 


许多 取样 算法 基于 下 列 伪 代码 ， 称 之 为 算法 S。 
算法 S 


initialize set S to empty 
Size := 0 
while Size < M do 
T := RandInt(i, N} 
if T is not in S then 
insert T in S 
Size := Size +1 


这 个 算法 把 结果 保存 在 集合 S 中 。 如 果 $ 的 实现 正确 ， 并 且 RanaInt 产 生 随 机 整数 ， 那 么 这 个 算 
法 生成 随机 样本 。 即 ， 每 个 M 元 子 集 的 概率 都 是 1/ (入 ) 。 循 环 不 变 式 是 : 8 总 是 包含 1.N 范 围 内 
Size 个 整数 的 随机 样本 。 


在 集合 S 上 有 4 个 操作 : 初始 化 为 空 、 测试 是 否 包含 一 个 整数 、 插 入 一 个 新 整数 以 及 打印 所 有 
元 素 。《 编 程 珠 现 》 第 1 版 第 11 章 概述 了 用 来 实现 集合 S 的 算法 和 5 种 数据 结构 : 位 向 量 、 无 序数 组 、 
有 序数 组 、 二 分 搜索 树 以 及 箱 。 该 章 还 描述 了 其 他 几 种 取样 算法 ， 见 习题 9。 


13.2 Floyd 算法 


算法 S 有 许多 优点 : 正确 、 相 当 高 效 、 非 常 简 洁 。 事 实 上 ,算法 S 好 得 让 我 认为 不 能 再 改进 了 。 
因此 我 就 在 茶 一 专栏 里 详细 描述 了 算法 S。 


NS, Ri; 好 在 Bob Floyd 发 现 了 我 的 错误 。 在 研究 算法 S 的 时 候 ， 他 发 现 当 
M =N =100 时 明显 行 在 一 个 缺陷 。 当 Size = 99 时， 集合 S 缺 一 个 整数 。 算 法 闭 着 眼睛 乱 猜 整数 ， 
直到 偶然 碰 上 正确 的 那个 为 止 ， 这 平均 需要 猜 100 个 随机 数 。 这 个 分 析 假 设 随 机 数 发 生 器 是 真正 
随机 的 。 对 于 某 些 非 随 机 序列 ， 这 个 算法 甚至 不 会 停止。 


Floyd 开 始 寻找 一 个 算法 ， 对 于 $ 中 每 个 随机 数 只 恰好 调用 一 次 RandTnt。Floyd 算 法 的 结构 
很 容易 递归 地 理解 : 为 了 从 1..10 中 产生 一 个 5 元 素 样本 ， 首 先 从 1..9 中 产生 一 个 4 元 素 样 本 ， 然 后 
加 上 第 5 个 元 素 。 这 个 递归 算法 概述 为 算法 F1。 

算法 F1 

function Sample(M, N) 


if M = 0 then 
return the empty set 


else 
S := Sample(M-1l, N-1) 
T := RandInt(i, N) 


if T is not in S then 
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insert T in 8 
else 
insert N in 8 
return 5 


我 们 用 举例 的 方式 来 验证 一 下 算法 Fl 的 正确 性 。 当 NE5 且 N=10 时 ， 算 法 先 递归 地 在 $ 中 计算 
1..9 范 围 内 的 一 个 4 元 素 随 机 样本 ， 然 后 给 7 指定 一 个 1..10 内 的 随机 整数 。 在 7 的 10 个 可 能 取信 中 ， 
恰好 有 下 列 $ 个 值 使 得 10 被 放 入 $ 中 :， 5S 中 已 有 的 4 个 值 以 及 10 本 身 。 因 此 ， 元 素 10 以 5/10 的 正确 概 
率 被 放 入 5 中 。 下 一 节 证 明 算 法 F1 以 等 概率 生成 N 元 集 的 任 一 MM 元 样本 。 


由 于 算法 Fl 采用 受 限 递归 形式 ，Floyd 可 以 通过 引入 一 个 新 变量 J 将 其 改写 成 迭代 形式 。( 习 
题 8 和 3.2 节 更 一 般 地 讨论 了 递归 消除 问题 。) 结果 就 是 算法 F2， 比 算法 S$ 更 有 效率 ， 但 几乎 同样 
简洁 。 

算法 F2 

initialize set S to empty 

for J :=N- M+ 1 to N do 

T := RandīInt (1, J) 
if T is not in S then 
insert T in S 


else 
insert J in S 


习题 2 和 习题 3 讨论 了 可 能 用 于 实现 集合 S$ 的 数据 结构 。 


有 些 读 者 可 能 会 嘲笑 算法 F2“ 只 是 伪 代 码 ”， 别 急 ， 下 面 的 程序 用 Awk 语 言 实现 了 Floyd 算 
法 。 第 2 章 描述 的 关联 数组 提供 了 集合 8 的 一 种 简洁 实现 。Awk 中 的 ARGV 数 组 允许 程序 访问 命令 
行 参数 ， 所 以 键入 sample 200 1000 就 能 产生 1~1000 范 围 内 200 个 元 素 的 样本 。 加 上 输入 和 输 
出 语句 ，Awk 程 序 只 需要 8 行 : 


BEGIN { m = ARGV[1]; n = ARGV[2] 


for (j = n-mt+1l; jJj <= n; j++) f{ 
t= 1 + int(j * rand()) 
if {t ins) s{j] = 1 
else s[t] = 1 


} 
for {i in s) print i 


} 


13.3 ”随机 排列 


一 些 使 用 随机 样本 的 程序 要 来 样本 的 元 素 以 随机 的 顺序 出 现 , 这 样 的 序列 被 称 为 无 重复 的 随 
机 排列 。 例 如 ， 在 测试 一 个 排序 程序 的 时 候 ， 随 机 产生 的 输入 必须 以 随机 的 顺序 出 现 ， 如 果 输 入 
总 是 有 序 的 ， 那 么 可 能 不 能 充分 地 测试 排序 代码 。 


我 们 可 以 利用 Floyd 算 法 F2 产 生 一 组 随机 样本 ， 然 后 把 它 复制 到 一 个 数组 中 ， 最 后 打 乱 数组 
中 元 素 的 顺序 。 这 段 代 码 用 于 随机 地 打 乱 数组 X.M] 的 顺序 : 
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for I := M downto 2 do 
J := RandInt({1, I) 
Swap (X[J], X{I]) 


这 个 只 有 三 个 步 又 的 方法 调用 了 RandInt 函 数 2M 次 。 
当 本 和 草原 来 在 《ACM 通 讯 》 上 发 表 后 ， 几 位 读者 发 现 上 面 的 伪 代 码 经 过 小 的 修改 后 ， 能 够 


”从 1..N 的 整数 中 产生 M 元 随机 排列 并 放 入 X[1..M] 中 : 


for I := 1 to N do 
X[I] := I 
for I := 1 to M do 
J := RandInt(I, N) 


Swap (X[J], X[I]) 


这 个 算法 很 容易 实现 成 代码 , 但 是 它 需 要 O(N) 的 运行 时 间 和 O(N) 的 空间 。 下面 我 们 会 看 到 , Floyd 
的 算法 在 相对 于 比较 大 的 时 候 ， 相 比 之 下 会 更 有 效率 。 


Floyd 的 随机 排列 产生 器 与 他 的 算法 F2 类 似 。 为 了 产生 1~N 内 的 一 组 M 元 排列 ， 它 会 先 从 
1~N-1 中 产生 一 组 M-1 元 的 排列 。( 算 法 的 递归 版 本 中 没有 变量 .1。) 但 是 ,排列 产生 器 的 主要 数据 
结构 是 序列 而 非 集合 。 下 面 是 Floyd 的 算法 P。 

算法 P 

initialize sequence S to empty 

for J := N - M + 1 to N do 

T = RandInt(l1, J) 
if T is not in S then 
prefix T to S 


else 
insert J in S after T 


从 习题 5 可 以 看 出 ， 算 法 P 在 随机 位 的 使 用 上 尤其 高 效 。 习 题 6 讨 论 了 序列 $ 的 高 效率 实现 。 
我 们 可 以 从 算法 在 M=N 时 的 行为 得 到 关于 算法 P 的 直观 的 感觉 ， 此 时 算法 生成 N 元 的 随机 排 
列 ， 其 中 /从 1 到 NN 循环 。 在 执行 循环 体 之 前 ,5 是 一 个 1~. 三 1 的 整数 的 随机 排列 。 循环 体 把 搬入 到 


序列 中 仍然 保持 了 这 一 点 ， 当 T= 时， ,1 成 为 第 一 个 元 素 ， 否则 .被 随机 放置 于 已 经 存在 的 三 1 个 元 
素 的 菜 一 个 之 后 。 


一 般 地 ， 算 法 P 以 等 概率 生成 1~N 内 的 每 一 个 MM 元 排列 。Floyd 对 于 正确 性 的 证 明 用 到 循环 不 
FA: 第 ; 轮 循环 后 ，. 矿 N-M+i 且 S 可 能 是 1~J 中 i 个 不 同 整数 的 任意 排列 ， 并 且 只 有 一 种 途径 可 以 
生成 这 个 排列 。 

Doug Mecllroy 友 现 了 一 种 优雅 的 方式 来 说 明 Floyd 的 证 明 : 对 于 任何 一 个 排列 ， 有 且 仅 有 一 种 
途径 来 生成 它 ， 因 为 算法 是 可 以 逆 推 的 。 例 如 ， 假 设 MES，AM=10， 且 最 终 的 序列 为 


72915 


由 于 10 《J 的 最 终 取 值 不 在 S 中 出 现 ， 所 以 之 前 的 序列 肯定 是 
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2915 


且 RandInt 有 返回 值 为 六 7。 又 因为 9〈 相 应 的 /的 值 ) 出 现在 4 元 序列 中 的 2 之 后 ， 所 以 之 前 的 7 是 2。 
习题 4 说 明了 可 以 类 似 地 恢复 出 整个 随机 数 序列 。 由 于 假定 了 所 有 的 随机 序列 是 以 相同 的 可 能 性 
出 现 的 ， 于 是 所 有 的 排列 也 同样 是 等 概率 的 。 


我 们 现在 可 以 利用 与 算法 P 的 相似 性 来 证 明 算法 F2。 在 算法 的 每 一 步 , 算法 F2 中 的 集合 S 和 算 
法 P 中 的 序列 S 所 含 的 元 素 是 相同 的 。 因 此 ，1~N 的 每 一 个 M 元 子 集 都 由 MI 个 随机 序列 生成 ， 于 是 
它们 是 等 概率 的 。 


13.4 原理 


算法 S 是 一 个 相当 好 的 算法 ， 但 是 在 Bob Floyd 看 来 还 不 够 好 。 因 为 对 它 的 效率 不 够 满意 ， 他 
设计 了 生成 随机 样本 和 随机 排列 的 优化 算法 。 他 的 程序 是 效率 、 简 洁 和 优雅 的 典范 。13.6 节 描述 
本 一 些 Floyd 用 来 完成 这 些 程序 的 方法 。 


13.5 习题 


1. 如 果 RandInt 函 数 并 非 随机 的 , 这 些 算法 的 行为 会 如 何 ? 例如 , 考虑 随机 数 发 生 器 总 是 返回 0， 
或 者 其 周期 范围 相对 于 M 或 N 非 常 小 或 者 非常 大 。 

2. 描述 算法 F2 中 集合 $ 的 高 效 的 实现 方式 。 

3. 算法 S 和 F2 都 用 到 集合 S$。 在 一 个 算法 中 高 效 的 数据 结构 ， 在 另 一 个 算法 中 一 定 也 高 效 吗 ? 

4. 通过 说 明 如 何 从 最 终生 成 的 排列 得 到 产生 它 的 随机 整数 序列 ， 来 完成 算法 P 的 正确 性 证 明 。 

5. 算法 P 使 用 了 多 少 个 随机 位 ? 试 说 明 这 已 经 相当 接近 最 优 情况 了 。 对 算法 F2 进 行 类 似 的 分 析 。 
你 能 找到 更 有 效 的 算法 吗 ? 

6. 给 出 序列 S 的 实现 方式 ， 使 得 算法 P 的 平均 时 间 代 价 为 O(M)， 最 坏 情况 时 间 代 价 为 O(M ogM). 
你 的 实现 在 最 坏 情 况 下 需要 O(M) 的 空间 。 

7. 用 你 最 喜欢 的 编程 语言 实现 Floyd 的 算法 。 

8. 算法 F2 是 递归 算法 F1 的 循环 版 本 ， 有 许多 通用 的 方法 可 以 将 递归 的 函数 转化 成 等 价 的 循环 形 
式 。 有 一 种 方法 常常 用 递归 的 阶乘 函数 来 说 明 。 考 虑 如 下 这 种 形式 的 一 个 递归 函数 : 
function A(M) 

if M = 0 then 
return Xx 
else 


S := A(M-1) 
return G(S, M) 
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其 中 MM 是 整数 ，S 和 X 具 有 相同 的 类 型 T， 孙 数 G 把 一 个 7 类 型 数据 和 一 个 整数 映射 到 一 个 7 类 型 
数据 。 说 明 该 函数 如 何 转 化 成 下 面 的 循环 形式 : 
function B(M) 

S :=X 

for J := 1 to M do 


S := G( S, J) 
return S 


9. 研究 生成 随机 样本 的 其 他 算法 。 
13.6 “深入 阅读 


Robert W. Floyd 在 1978 年 获得 了 ACM 图 灵 奖 。 在 他 的 图 灵 演 讲稿 “The Paradigms of 
Programming”( 程 序 设计 的 范 型 ) 中 ，Floyd 写 道 :“ 在 我 自己 设计 困难 算法 的 经 验 中 ， 我 发 现 了 
一 个 扩展 目 己 能 力 的 方法 。 一 个 具有 挑战 性 的 问题 解决 后 ， 我 从 头 再 做 一 遍 ， 回 顾 之 前 的 方法 中 
的 闪光 点 。 我 重复 这 样 做 ， 直 到 解决 方法 如 我 所 希望 的 那样 明确 和 直接 。 然 后 我 考虑 类 似 问 题 的 
通用 准则 ， 这 将 促使 我 在 起 初 的 时 候 最 有 效 地 来 解决 问题 。 通 常 ， 这 样 的 法 则 具有 永久 的 价值 。” 


对 于 这 个 问题 ，Floyd 的 关键 法 则 是 (用 他 自己 的 话说 ):“ 在 你 想 出 一 个 算法 来 解决 它 之 前 ， 
先 寻 找 答 案 的 数学 特征 。” 他 关注 算法 生成 某 个 特定 子 集 的 概率 。 在 Floyd 计 算 算 法 S 中 事件 的 概 
率 时 ， 他 注意 到 分 母 是 N 的 究 ， 而 解答 中 的 分 母 是 阶乘 。 他 的 算法 用 到 了 一 个 简单 的 结构 来 得 到 
正确 的 概率 。 在 最 终 想 出 算法 P 的 时 候 ， 他 回忆 道 :“ 在 我 证 明 它 之 前 ， 我 就 知道 它 是 正确 的 了 。?” 


Floyd 的 1978 年 图 灵 奖 演讲 最 初 发 表 在 1979 年 8 月 的 《ACM 通 讯 》 上 ， 它 也 被 收入 到 4CM 
Turing Award Lectures: The First Twenty Years: 1966~1985 2 一 书 中 ， 由 ACM 出 版 社 于 1987 年 出 版 。 


© 该 书 中 译 版 已 由 电子 工业 出 版 社 出 版 ， 中 文书 名 《ACM 图 灵 奖 演讲 集 一 -前 20 年 〈1966~1985)》。 一 一 编者 注 





编写 数值 计算 程序 


行内 的 人 给 它 起 了 个 好 昕 的 名 字 叫 “数值 分 析 ”， 对 于 大 多 数 程 序 员 来 说 ,数值 计算 这 个 领 
域 很 像 管道 工 的 活 儿 : 我 们 经 常用 ， 但 不 去 想 太 多 细节 ， 除 非 有 东西 出 了 问题 。 

我 曾经 也 抱 有 这 样 有 些 过 时 的 观点 ， 后 来 一 门 很 好 的 数值 分 析 课 程 纠正 了 我 的 观点 , 这 门 课 
程 问 我 展示 了 这 个 领域 的 优雅 .我 对 这 门 学 科 的 评价 从 “ 丑 而 无 用 ”改变 为 “ 美 而 无 用 ”. 但 是 ， 
程序 库 中 已 经 有 了 很 好 的 数值 程序 ， 为 什么 我 还 要 自己 再 来 写 一 个 呢 ? 


最 近 我 高 兴 地 发 现 ， 即 使 对 于 一 个 像 我 这 样 的 外 行 来 说 ， 数 值 分 析 也 是 有 用 的 。 本 章 讲述 我 


如 何 利用 一 些 基 本 的 技术 来 编写 简单 的 数值 例 程 。 我 专门 针对 手头 问题 编写 了 一 个 函数 ， 用 来 代 


替 库 函数 。 代 码 从 五 行 增 加 到 了 十 几 行 ， 但 是 程序 变 快 了 三 倍 ， 这 使 得 一 个 大 程序 的 运行 速度 
提高 了 一 倍 。 


14.1 问题 


我 曾 编写 过 一 个 用 于 计算 旅行 商 漫游 点 集 的 程序 。 这 个 有 上 千 行 的 程序 运行 时 间 报 告 (如 第 
1 章 所 述 ) 显示 ， 有 约 80% 的 时 间 都 用 在 了 一 个 5 行 的 用 于 计算 距离 的 例 程 上 。 问 题 要 求 计算 Kk 维 
空间 中 点 与 反之 间 的 欧 氏 距离 。 例 如 ， 三 维 空间 中 的 点 (a1, ao, a3) 和 (bi1, bp, bs) 之 间 的 距离 是 : 


(a, -b y +(a, -b, +(a, — 6, ) 


程序 1 计算 了 用 向 量 4[1..KI 和 B[1..K] 表 示 的 点 之 间 的 距离 。 


程序 1 

Sum := 0.0 

for J <= 1 to K do 
T := A[J] - BIJ] 
Sum := Sum + T*T 


return sqrt (Sum) 


程序 1 的 优点 是 简单 : 它 很 容易 理解 。 但 它 也 有 一 些 缺 点 。 例 如 ， 即 使 所 有 的 输入 、 中 间 计 


CO 
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算 的 差 以 及 输出 都 在 有 效 范围 内 ， 它 也 可 能 产生 溢出 。 假 设 机 器 能 够 表示 的 浮 点 数 上 限 为 10”， 
考虑 计算 (0, 0) 和 (3x10”,，4x10”) 之 间 的 距离 ， 结 果 是 5x10”。 但 是 ，0-3x10” 这 个 差 值 的 平方 为 
9x10“， 会 产生 溢出 。 这 个 问题 ， 以 及 类 似 的 下 溢出 的 问题 对 于 手头 的 程序 是 无 关 紧 要 的 。 上 下 
文保 证 了 差 不 会 太 大 或 者 太 小 。 


程序 1 的 另 一 个 问题 是 它 的 开销 比较 大 ， 至 少 在 一 台 VAX-11/750 上 用 C 语 言 实现 的 时 候 是 这 
样 的 。7.2 节 概述 了 该 软 /硬件 系统 的 性 能 : 算术 运算 的 开销 ， 从 整数 加 法 的 3.3 微 秒 到 浮 点 数 除法 
的 15.7 微 秒 。 当 K=2 的 时 候 ， 程 序 1 需 要 漫长 的 1140 微 秒 来 计算 平面 上 一 对 点 之 间 的 欧 氏 距离 。 进 
一 步 的 测试 《如 同 7.2 节 中 所 描述 的 ) 表明 ， 其 中 耗 时 最 长 的 部 分 是 计算 平方 根 ， 这 需要 约 940 微 
秒 。 


我 的 目标 是 提供 更 快速 的 用 于 计算 距离 的 例 程 。 第 5 章 的 习题 4 举例 说 明了 一 种 在 许多 应 用 程 
序 中 所 使 用 的 方法 .我们 仅仅 从 程序 1 中 去 掉 sqrt 的 调用 。 如 果 只 需要 对 距离 的 大 小 进行 比较 ， 
那么 由 sGrt 的 单调 性 可 以 知道 它 是 多 余 的 。 但 是 对 于 我 们 这 里 的 问题 ， 不 能 使 用 这 个 方法 一 一 
我 需要 比较 距离 的 和 。 因 此 ， 我 寻求 一 个 K 维 欧 氏 距离 的 计算 函数 ， 它 具有 下 面 这 些 性 质 。 

。 EDU: 天 在 1..16 的 范围 之 内 《通常 为 2、3 或 4)。 点 的 坐标 是 单 精 度 的 。 

o 精度 : 单 精 度 的 输出 应 该 精确 到 十 进 制 的 最 后 一 位 ， 或 者 相对 精度 约 为 10“。 

。 健壮 性 :假设 输入 是 规则 的 。 上 溢出 和 下 溢出 不 是 主要 关心 的 问题 。 

o 性 能 ， 程序 应 该 尽 可 能 地 快 。 


本 章 接 下 来 的 部 分 将 主要 讲述 一 个 具有 这 些 性 质 的 例 程 。 习题 17 描 述 了 一 个 精确 而 且 健 壮 的 
算法 ， 但 是 稍 慢 -一 些 。 
14.2 .牛顿 迭代 


数值 分 析 家 发 展 出 了 许多 技术 用 来 寻找 函数 的 零点 ( 根 )。 给 定 一 个 函数 x)， 它 的 零点 是 一 
个 实数 r:， 使 得 fr)=0。 为 了 计算 Va 我 们 可 以 寻找 f(x) =x -a 的 一 个 零点 ， 如 晰 -a=0， 那 
么 ry = Va 。 因 此 ， 如 果 我 们 能 够 找到 零点 ， 我 们 就 能 计算 平方 根 了 。 


那么 我 们 怎样 找到 函数 的 零点 昵 ? 我 们 可 以 利用 我 们 的 老 朋 友 : 二 分 搜索 。 如 果 a 宇 1， 那 


么 Va EWM a] 内 。 我 们 可 以 每 次 把 这 个 区 间 切 成 两 半 ， 直 到 得 到 Jo 的 满意 的 近似 值 。 例 如 ， 


当 & = 4 时 ， 我 们 会 依次 检查 区 间 [1, 4]、[1, 2.5]. [1.75, 2.5]. [1.75, 2.125]…… 数 值 分 析 家 称 这 种 
方法 为 对 分 法 ， 每 一 步 都 增加 一 位 精确 数字 。 


一 个 更 好 的 方法 是 艾 萨 克 。 和 牛顿 发 明 的 。 应 该 说 牛顿 是 一 位 英国 计算 机 和 科学家， 当然， 他 也 
涉足 数学 和 物理 领域 。 他 的 方法 并 不 显 式 地 计算 区 间 ， 而 是 从 一 个 猜测 的 ze 开始， 生成 一 个 逼近 
序列 ru x2, za 为 了 生成 xi， 我 们 需要 知道 fx) 和 它 的 导数 (x;))。 然 后 我 们 作 x, 处 的 切线 ， 使 它 
与 x 轴 相 交 : 


14.2 ”和 牛顿 迭代 131 





直观 上 ， 我 们 在 局 部 用 具有 相同 的 y 值 和 和 斜率 的 直线 来 近似 原来 的 函数 。 数 学 上 ， 我 们 这 样 计 算 
Xia = %; — f(x) f(x) 


因此 ， 为 了 能 用 牛顿 迭代 ， 我 们 必须 能 够 计算 函数 的 值 和 它 的 导数 。 
为 了 计算 Va ， 我 们 求解 f(x) =? -a 的 零点 ， 而 f(x) = 2x 。 故 牛顿 迭代 的 公式 为 


Xa =xX—(x —a)/2x, 
=x,—-x,/2+a/2x, 
=(x,+a/x,)/2 


从 直观 上 观察 公式 为 什么 有 效 ， 可 以 看 到 如 果 x, 很 小 ， 那 么 ah 会 很 大 ， 两 者 的 平均 是 比较 好 的 估 
测 。( 学 校 里 的 孩子 称 之 为 “ 除 然后 求 平均 ”技术 。) Ak, 一旦 我 们 到 达 了 最 终结 果 ， 我 们 就 不 
SAFET: Wx = Va ， 那 么 


xı =(Va+a/Va)/2=VJa 149 
下 面 是 牛顿 迭代 求 V2 AEH A MILI, Fea =2,%,=2, Ax =(2+2/2)/2=1.5: 


插图 暗示 了 这 种 方法 的 收敛 速度 之 快 ， 但 是 不 能 用 图 形 来 说 明 这 一 点 。 下 面 是 x 序列 中 接 下 来 的 
几 项 : 


2.0000000000000000 
1.5000000000000000 
1.4166666666666667 
1.4142156862745098 
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1.4142135623746899 
1.4142135623730951 


这 些 值 是 用 答案 6 中 的 简单 的 “脚手架 ”程序 计算 的 。 最 后 的 结果 精确 到 16 位 小 数 。 


14.3 ” 民 好 的 起 操 
牛顿 迭代 的 基本 思想 就 说 到 这 里 。 在 我 们 动手 设计 程序 之 前 ， 还 有 下 面 两 个 问题 。 


(1) xo 的 初始 值 选 择 多 少 合适 ? 
(2) 把 ;作为 最 后 结果 之 前 ， 应 该 进行 多 少 次 迭代 ? 


我 们 会 在 下 一 节 中 探讨 第 二 个 问题 ， 本 节 我 们 专注 于 第 一 个 问题 。 


士 一 六 的 例子 表明 午 顿 的 方法 收敛 速度 很 快 。 每 一 次 迭代 都 会 使 精确 位 数 翻 倍 。 因 为 第 寺 1 
步 的 误差 是 与 第 ; 步 的 误差 的 平方 成 比例 的 ， 数 值 分 析 家 称 之 为 “平方 收 化 ”。 和 牛顿 迭代 通常 都 
具有 这 一 性 质 , 前 提 是 两 个 条 件 成 立 。 第 一 个 条 件 是 导数 不 接近 零 。 对 于 平方 根 , 如 果 我 们 把 V0 
作为 特殊 情况 对 符 ， 那 么 可 以 认为 这 一 点 始终 是 成 立 的 ， 但 是 对 于 其 他 的 函数 可 能 会 有 些 困难 。 


平方 收敛 的 第 二 个 条 件 是 , 初始 的 猜测 值 必须 足够 接近 最 后 的 根 。 如 果 当 前 值 与 平方 根 相 差 
很 远 , 那么 牛顿 的 方法 每 次 迭代 时 只 能 给 出 一 位 精确 数字 。 下 面 是 从 1000 开 始 收敛 到 V2 的 过 程 : 


1000.0000000000000000 
500.0010000000000000 
250 .0024999960000100 
125.0052499580004700 

62.5106246430170320 
31.2713096020621940 
15 .6676329948683660 
7 .8976423478563581 
4.0754412405194990 
2.2830928243925538 
1.5795487524060154 
1.4228665795786682 
1.4142398735915306 
1.4142135626178485 
1.4142135623730951 


注意 ， 对 于 一 些 表 现 得 不 那么 好 的 函数 ， 如 果 从 与 根 相差 很 大 的 数值 开始 计算 ， 牛 顿 的 方法 甚至 
可 能 不 收敛。 
大 多 数 通 用 的 平方 根 例 程 利用 一 些 “ 魔 法 ”来 选 定 一 个 初始 值 , 例如 提取 一 个 浮 点 数 的 指数 


的 位 域 ， 然 后 将 其 折 半 来 近似 估计 平方 根 。( 在 某 些 应 用 中 ， 利 用 上 一 次 计算 出 来 的 平方 根 是 比 
较 有 效 的 ， 见 习题 9。) 在 计算 距离 的 函数 中 ， 我 们 可 以 利用 其 他 的 信息 来 猜测 初始 值 。 例 如 ， 当 


KK 为 2 时 ， 我 们 要 计算 的 是 a = Vi2 +e: 
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Ds 


b 

我 们 可 以 用 5 和 ec 中 较 大 的 一 个 (在 .上 图 中 是 6) 作为 初始 猜测 值 xe。 这 样 ， 我 们 得 到 下 面 的 不 等 式 
cX<b<a=Vb +c? <V2xb =V2xb 

因此 ， 我 们 知道 a 在 区 间 [b,V2x5b] 内 。 


对 于 更 高 维 的 情况 ， 我 们 将 使 用 所 有 的 差 之 中 的 最 大 值 作为 初始 估计 值 ， 称 之 为 D。 距 离 至 
少 为 D， 并 且 K 个 差 的 平方 和 至 多 为 KxD: ， 因 此 ， 距 离 应 当 在 区 间 [D,DVK] 内 。 


14.4 代码 


我 们 现在 能 够 写 一 个 计算 欧 氏 距离 的 程序 了 。 它 用 差 的 最 大 值 作 为 初始 值 ， 并 且 一 直 迭 代 到 
连续 的 两 个 值 足够 接近 : 直到 | x, -x, 1/x 不 大 于 千 万 分 之 一 ,这 与 我 的 机 器 上 单 精度 型 的 精度 
相关 。 下 面 是 程序 2。 


程序 2 
T := abs(A[1] - B[1]) 
Max := T; Sum := T*T 
for J := 2 to K do 
T := abs(A[J] - BI[J]) 
if T > Max then Max := T 
Sum := Sum + TT 
if Sum = 0.0 then return 0.0 
/x find sqrt(Sum), starting at Max */ 
Eps = 1.0e-7 


Z := Max 
loop 
= NewZ := 0.5 * (Z + Sum/Z) 
if abs (NewZ-Z) <= Eps*New then break 
Z i= Newz 


return Newz 


本 节 末 的 一 张 表 列 出 了 本 章 所 讨论 的 所 有 程序 的 运行 时 间 。 表 中 显示 ， 当 K=2 的 时 候 ， 程 序 
2 比 程序 1 快 大 约 $6%: 新 的 平方 根 代 码 实 际 上 比 系 统 程序 更 快 。 但 是 当 K=16 时 ， 程 序 2 只 比 程 序 1 
快 大 约 1.5%: 此 时 的 瓶颈 不 是 平方 根 , 寻找 最 大 差 的 过 程 抵消 了 新 的 平方 根 求解 程序 所 省 出 的 时 
间 中 的 大 部 分 。 幸 运 的 是 ， 问 题 的 详细 说 明 中 指出 天 通常 比较 小 。 


有 两 种 途径 可 以 改进 程序 2。 我 们 从 加 速 求 根 程序 开始 ， 然 后 简短 讨论 一 下 计算 最 大 差 。 现 
在 的 版 本 达 代 直到 所 得 的 值 足 够 接近 ; 下 一 个 版 本 将 会 做 固定 次 数 的 和 迭代， 这 个 次 数 保证 产生 收 
Bo ROD AH: 循环 、 收 和 敛 测 试 以 及 计算 最 后 一 次 的 和 途 代 与 前 一 次 是 否 足够 接近 。 


那么 ， 我 们 需要 多 少 次 适 代 呢 ? 详细 说 明 中 指出 KE 16， 并 且 我 们 必须 计算 到 单 精 度 的 准确 
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度 。 由 于 kK<16， 我 们 知道 距离 至 多 为 V16xD (这 里 D 是 最 大 的 差 Max)， 因此 在 区 间 [D， 4D] 内 。 
看 起 来 这 个 区 间 的 几何 平均 值 2D 是 一 个 不 错 的 初始 值 。 我 利用 我 的 脚手架 程序 测试 了 从 这 个 中 
点 到 区 间 边 界 的 收敛 情况 。 我 先 从 2 开始 ， 计 算 Vl : 


x abs (x-1.0)/1.0 
2.0000000000000000 ~1.0000000000000000 
1.2500000000000000 Q.2500000000000000 
1.0250000000000000 0.0250000000000000 ` 
1.0003048780487805 0.0003048780487805 
1.0000000464611473 0.0000000464611473 
1.0000000000000011 0.0000000000000011 

152 1.0000000000000000 0.0000000000000000 
在 接 下 来 的 实验 中 ， 我 从 相同 的 起 点 2 开始 ， 计 算 Vie : 

x = abs (x-4.0)/4.0 
z2.0000000000000000 0.5000000000000000 
5.0000000000000000 0.2500000000000000 
4.1000000000000000 0.0250000000000000 
4.0012195121951220 0.0003048780487805 
4,.0000001858445894 0.0000000464611473 
4.0000000000000043 0.0000000000000011 
4.0000000000000000 0.0000000000000000 


因为 牛顿 迭代 是 线性 的 ， 所 以 这 两 个 例子 可 以 说 明 任何 从 2D 开 始 , ite VD? 和 Vi6D? 的 情 
况 。 习 题 15 证 明 这 两 个 极端 情况 实际 上 是 收敛 最 慢 的 两 种 情形 。 从 右边 的 列 中 看 出 ， 在 第 一 步 之 
后 ， 两 个 输入 得 到 的 相对 误差 是 一 样 的 。 这 个 过 程 在 第 四 步 之 后 得 到 所 要 求 的 七 位 精确 数字 。 因 
此 ， 当 <16 时 ,将 程序 2 中 的 循环 展开 四 次 就 可 以 计算 出 精确 结果 了 。 程序 3 的 第 一 部 分 和 程序 2 
一 样 。 下 面 只 给 出 程序 3 的 最 后 几 行 。 

程序 3 


/x compute sqrt (Sum), starting at 2.0*Max */ 
Max := Max * 2.0 


kan d 


Max := 0.5 * {Max + Sum/Max) 
Max := 0.5 * (Max + Sum/Max) 
Max := 0.5 * (Max + Sum/Max) 


return 0.5 * (Max + Sum/Max) 


这 个 程序 的 速度 在 K =4 的 时 候 大 约 是 程序 2 的 两 倍 。 习 题 11 提 出 了 一 个 进一步 加 速 计算 平方 
根 的 方法 : 利用 查 表 获得 更 好 的 初始 猜测 值 。 上 面 例子 表明 ， 如 果 我 们 能 够 使 相对 误差 降低 到 
2.5%， 那 么 再 做 两 步 迭代 就 能 够 满足 单 精度 的 要 求 了 。 


最 后 的 改进 不 涉及 数值 分 析 的 高 深 内 容 ， 而 是 一 些 关于 编写 代码 的 技巧 。 第 一 个 是 针对 C 语 
言 的 。 实 际 的 程序 和 测试 程序 都 实现 了 一 个 二 维 向 量 ， 用 于 存放 每 个 点 的 浮 点 数 坐标 。 最 终 的 程 
序 引 入 了 两 个 新 的 变量 ， 它 们 指向 需要 比较 的 两 个 欧 几 里 得 点 ， 这 样 ， 就 用 K 个 一 维 向 量 的 引用 
来 替换 了 K 个 二 维 向 量 的 存 取 。 第 二 个 技巧 在 习题 10 中 作 了 描述 ， 它 利用 到 了 一 个 代数 恒等式 。 
由 于 这 些 加 速 与 实现 的 语言 相关 ， 所 以 对 于 程序 4， 给 出 的 是 运行 时 间 而 非 伪 代码 。 


146 习题 135 





在 下 面 的 表 中 对 这 些 程序 做 了 总 结 。 从 程序 1 到 程序 4， 加 速 比 在 K=2 时 是 3.5，K=4 时 为 2.8， 
K=16 时 为 1.9。 










1140 | 1270 

730 990 
350 500 
330 450 


2 000 





14.5 原理 


距离 计算 在 许多 程序 中 是 主要 负荷 。 新 的 距离 程序 使 我 的 1000 行 的 旅行 商 程序 速度 翻 了 一 
音 ， 并 且 对 于 其 他 几何 程序 也 有 类 似 的 加 速效 果 。 除 了 得 到 一 个 有 用 的 程序 之 外 ， 这 次 的 锻炼 也 
揭示 了 儿 个 通用 的 原则 。 


上 下 文 环 境 的 重要 性 。 得 到 一 个 快速 的 距离 程序 的 过 程 受 到 许多 因素 的 影响 。 例 如 ， 本 章 中 
所 描述 的 大 部 分 工作 ， 对 于 一 个 具有 硬件 平方 根 指令 的 系统 可 能 是 适得其反 的 。 对 于 较 大 的 K 值 
(如 1000)， 平 方 根 的 开销 就 变 得 次 要 了 。 对 于 K=2〈 即 平面 上 的 点 )， 习 题 17 中 所 述 的 方法 往往 
比 程序 4 更 快 而 且 总 是 更 健壮 。 因 此 ， 在 开始 编号 代码 之 前 ， 必 须知 道 关 于 上 下 文 环 境 《 使 用 环 
H FEAT. 


牛顿 选 代 。 这 个 技术 通常 被 数值 分 析 家 使 用 ,但 它 有 的 时 候 即 使 对 于 普通 的 程序 员 也 是 有 用 
的 一 一 见习 题 1。 

编写 代码 的 技巧 。 尽管 大 的 改进 通常 归功 于 算法 的 改变 , 但 是 代码 的 小 的 改进 也 能 减少 运行 
时 间 。 在 本 例 中 ， 循 环 展开 是 有 效 的 : 它 去 掉 了 循环 、 收 合 测 试 和 一 次 多 余 的 迭代 。 其 他 的 技巧 
包括 利用 代数 变形 、 优 化 数组 引用 以 及 将 预先 计算 的 结果 存储 在 表 中 (见习 题 10、11 和 12)。 

库 光 数 的 作用 。 使 用 优秀 的 库 是 令 入 愉快 的 。 许 多 库 提供 了 精确 和 健壮 的 代码 。 但 是 ， 最 好 
记 住 ， 没 有 哪个 库 对 于 所 有 的 用 户 都 是 最 好 的 。 在 本 例 中 ， 在 特殊 的 上 下 文 环境 中 针对 特殊 目的 


设计 的 代码 比 通用 的 程序 更 有 效 。 为 了 换取 速度 ， 需 要 牺牲 可 复 用 性 和 数值 精确 度 。 这 在 工程 上 
是 明智 的 选择 。 


14.6 Sw 


1， 你 的 库 平方 根 函 数 只 提供 单 精度 准确 度 ， 但 是 应 用 需要 双 精 度 的。 你 会 怎么 做 ? 


2， 在 一 个 手掌 计算 器 上 ， 反 复 地 将 一 个 数 开 平方 ， 然 后 再 把 结果 平方 回来 。 关 于 计算 器 ， 你 从 
中 能 知道 什么 ? 


3， 牛 顿 的 方法 在 f(x) = 0 的 时 候 无 效 ， 计 算 平方 根 VO 的 时 候 会 出 现 这 种 情况 。 如 何 用 牛顿 的 


nr 


10. 


11. 
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方法 ， 从 初始 值 x。=1 开 始 计算 V0 ? 算法 在 计算 一 个 接近 零 的 正 数 的 平方 根 时 也 有 类 似 的 问 
题 吗 ? 


.研究 你 的 系统 提供 的 平方 根 程序 。 如 果 它 使 用 了 牛顿 的 方法 ， 那 么 它 的 初始 值 是 多 少 ， 做 了 


Be RIBAK? 


. 有些 计算 机 有 快速 的 硬件 乘法 器 但 是 没有 硬件 除法 器 。 它 们 用 乘法 的 逆 运 算 来 实现 除法 。 试 


说 明 如 何 用 牛顿 的 方法 ,通过 求 f(x) = a-1/x 的 零点 来 计算 1/a 。 党 试用 牛顿 的 方法 求 3 次 方 
根 ， 或 者 任意 多 项 式 的 根 。 


.实现 一 个 牛顿 迭代 的 “脚手架 ”程序 。 它 的 输入 包括 一 个 数 〈( 要 求 它 的 平方 根 )、 一 个 初始 值 


以 及 和 迭代 的 次 数 。 程 序 提供 默认 值 ， 它 的 输出 是 值 和 相对 误差 的 变化 过 程 表 。 


.在 你 的 系统 上 实现 程序 1、2、3 和 4。 你 如 何 测试 它们 的 正确 性 ?建立 一 个 测试 台 来 给 它们 计 


时 。 你 的 结果 与 本 章 中 所 给 结果 相 比如 何 ? 


. D. L. Blue] 本 章 忽 略 了 在 差 的 平方 相 加 时 的 上 溢出 和 下 溢出 问题 。 写 一 个 能 够 处 理 这 些 问 题 


的 程序 。 

利 见 的 局 发 式 方法 使 用 上 一 次 计算 出 来 的 平方 根 作为 下 一 次 牛顿 欠 代 的 初始 值 。 在 一 个 应 用 
程序 中 出 试 这 个 方法 。 它 平均 需要 多 少 次 迭代 ? 与 其 他 的 初始 值 相 比 如 何 ? 
程序 3 中 将 Max 加 倍 ， 在 下 面 的 语句 中 又 将 它 减 半 。 用 代数 恒等式 来 加 速 下 面 的 语句 ; 


Max := Max * 2.0 
Max := 0.5 * (Max + Sum/Max) 


但 表 可 以 用 空间 换取 运行 时 间 。 如 何 用 这 个 技术 来 计算 一 个 好 的 初始 值 ? 如 果 平 面 点 集 的 x 
和 ?7 坐标 都 在 0~9999， 你 如 何 查 表 计算 欧 氏 距离 ? 


. [A. Appel] 试 说 明 程 序 2 中 用 于 计算 Max 的 K 个 绝对 值 是 如 何 能 够 只 用 一 个 单 精 度 绝对 值 蔡 


换 的 ? Chea: 保存 当前 所 访问 过 的 最 大 平方 值 。) 


和 使 件 该 计 师 们 发 现 ， 具 有 类 似 效率 的 除法 和 平方 根部 件 所 需 的 硬件 数量 也 是 类 似 的 。 试 通过 


描述 一 个 程序 ， 说 明 在 软件 中 平方 根 也 和 除法 差不多 难 。 该 程序 用 来 计算 V2 ， 精 确 到 百 万 
位 小 数 。 


[S. Crocker] 对 有 限 的 精度 的 考虑 使 许多 程序 变 得 复杂 , 但 是 却 使 这 个 平方 根 程序 特别 地 简单 : 


X := 1 

loop 
NewX := 0.5 * (X + A/X) 
if NewX = X then return Newx 
X := NewX 


企 你 的 机 器 上 ， 它 对 于 所 有 非 零 的 输入 4 都 收敛 吗 ? 在 任意 机 器 上 了 呢 ? 〈 要 得 到 一 个 较 好 的 


15. 


18. 
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初始 值 ， 见 习题 9。) 


[M. D. Mecilroy] 在 有 限 区 间 内 ， 用 和 牛顿 方法 求 平方 根 的 最 佳 初始 值 是 什么 ? 设 n 是 一 个 自然 
数 ， 有 晶 a、b 和 x 为 满足 0<a<r<。 的 实数 ， 设 R=r*。 给 定 x"、a 和 bp， 我 们 希望 对 牛顿 迭代 
Xx =(%,+R/x,)/2 选择 一 个 初始 值 x =x, DBM TOL FBT Re: 


NaX, ,cp | x, -r | /7 


试 说明 不 论 zx 如何 取 值 ， 最 佳 选 择 都 是 x = Jab 。 


.习题 15 确 定 了 牛顿 欠 代 的 最 佳 初始 值 。 如 果 把 迭代 次 数 看 作 维 数 CK) 和 所 期 望 的 精度 的 函 


数 ， 那 么 所 需 的 欠 代 次 数 是 多 少 呢 ? 


，Moler 和 Morrison 描 述 了 一 个 快速 、 健 壮 而 且 短 小 的 算法 来 计算 VP2 +C- ( 见 IBM Journal of 


Research and Development 第 27 卷 第 6 期 577~581 页 的 “Replacing Square Roots by Pythagorean 
Sums” 一 文 ， 发 表 于 1983 年 11 月 )。 他 们 的 算法 可 以 描述 如 下 : 


P := abs(P); Q := abs(Q) 
if P < Q then Swap(P, Q) 
if P = 0.0 then return Q 
repeat IterCount times 

R Q/P 

R 


Q 


return 

CRIS, DRIER ZIG RAOSIRS, SHER ZA 20M, ARZA 

62A. ERE EARE Se T EAHA A Ah o 

a. 在 一 个 子 程序 中 利用 这 段 代 码 来 计算 平面 欧 氏 距离 。 当 K=2 时 ， 它 的 运行 时 间 与 程序 3 相 
比如 何 ? 


my W T i i | 


b. 利用 这 个 程序 , 你 如 何 计算 K 维 欧 氏 距离 ” 当 K=1000 时 ,你 的 代码 需要 多 长 时 间 ? 这 与 程 . 


序 3 相 比 又 如 何 ? 
在 一 个 能 够 同时 进行 P 个 算术 运算 的 并 行 处 理 器 上 ， 你 如 何 设计 一 个 计算 欧 氏 距离 的 程序 ? 


14.7 ”深入 阅读 


有 很 多 出 色 的 数值 分 析 教 科 书 。 对 于 你 来 说 ， 哪 本 最 好 取决 于 你 对 深度 和 广度 的 要 求 ， 以 及 


你 对 数学 和 编程 的 兴趣 。 


14.8 ”数值 算法 的 力量 (WE) 


本 章 的 大 部 分 内 容 ， 即 使 对 于 一 个 业余 人 员 也 只 需要 几 小 时 , 但 是 用 到 的 技术 却 是 儿 十 年 到 


ON 
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几 个 世纪 中 成 熟 起 来 的 。 我 们 现在 把 话题 转 到 一 个 更 能 体现 数值 分 析 领 域 重 要 性 的 故事 。 每 倍 人 
都 知道 在 过 去 的 几 十 年 中 , 计算 机 硬件 所 取得 的 巨大 进步 。 本 节 将 会 展示 数值 分 析 如 何 令 人 满意 
地 保持 着 相同 的 节奏 前 进 ( 但 是 在 流行 刊物 上 的 吹捧 却 比较 少 )。 


在 John Rice 的 Numerical Methods, Software, and Analysis 〈 由 McGraw-Hil 出 版 社 于 1983 年 出 
版 ) 的 10.3.C 节 ,， 他 记叙 了 三 维 椭圆 偏 微分 方程 的 算法 历史 。 这 样 的 问题 出 现在 各 种 各 样 的 地 方 ， 
如 仿真 、 超 大 规模 集成 电路 (VLSI) 设备 、 油 井 、 核 肥 应 堆 和 机 辟 螺 旋 桨 。 那 段 历史 中 的 一 小 
部 分 〈 大 多 数 但 不 是 全 部 来 自 于 Rice 的 书 ) 在 下 面 的 表 中 给 出 。 运 行 时 间 给 出 了 解决 一 个 
NXNXN 的 网 格 中 的 问题 所 需 的 浮 点 运算 的 次 数 。 


A ”法 运行 时 间 
高 斯 消 元 法 N 
SOR 和 迭代 8A? 
( 非 最 优 参数 ) 
SOR 迭代 8MiogN 
最 优 参数 ) 
循环 约 化 8NlogN 
Multigrid 方 法 60W 





SOR 代 表 successive over-relaxation (逐次 超 松 弛 法 )。Multigrid 算 法 的 OCN’) 运 行 时 间 是 最 佳 
结果 的 常数 倍 ， 因 为 问题 本 身 的 输入 规模 就 有 那么 多 。 即 使 用 1970 年 的 算法 ， 计 算 结果 所 需 的 
时 间 通 常 也 比 读 取 输 入 所 需 的 时 间 少 。 因 此 ， 后 来 对 于 该 问题 的 研究 就 专注 于 在 求解 病态 方程 
时 的 数值 健壮 性 。 


用 于 计算 的 硬件 也 有 了 巨大 的 改进 。 这 张 表 给 出 了 几 个 超级 计算 机 ， 它 们 在 各 目的 时 代 都 是 


最 强大 的 计算 引擎。 
每 秒 百 万 次 浮 点 运算 










Manchester Mark I 

IBM 701 

IBM Stretch 

CDC 6600 

CDC 7600 

Cray-1 

Cray-2 (YFA; 单 CPU ) 


性 能 是 用 每 秒 百 万 次 浮 点 运算 来 度量 的 。 我 已 经 党 试 把 真正 的 浮 点 运算 之 外 的 其 他 指令 都 计 
算 在 内 了 。 尽管 任何 这 样 的 表格 都 是 值得 怀疑 的 ,但 是 我 认为 上 面 表格 中 没有 哪 一 项 的 误差 系数 
会 超过 2。 


为 了 比较 硬件 和 软件 的 加 速 ， 让 我 们 来 解决 一 个 简单 的 问题 ， 泊 松 方 程 ， 其 中 N=64。 下 图 
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中 ,底部 的 曲线 说 明了 在 不 同 的 硬件 上 运行 1945 年 的 算法 得 到 的 硬件 改进 ， 中间 的 曲线 是 在 1947 
年 的 硬件 上 运行 各 种 算法 得 到 的 。 最 上 面 的 曲线 表示 结合 起 来 的 加 速 。 


1012 


10° 


小 时 
运行 时 间 


10? 


10° 





1950 1960 1970 1980 


算法 30 年 加 速 了 25 万 倍 ， 而 硬件 40 年 加 速 了 50 万 倍 。 两 种 加 速 各 自 都 可 以 把 运行 时 间 从 几 个 
世纪 降低 到 几 小 时 。 合 在 一 起 ， 它 们 的 效果 相 乘 使 得 运行 时 间 不 到 一 秒 。 


of 





假设 你 有 一 个 101 人 的 身高 表 ， 那 么 就 不 难 找到 表 中 最 高 或 者 最 矮 的 人 ， 但 是 你 如 何 找 出 最 
中 间 的 人 呢 《〈 当 然 ， 就 身高 而 言 ) ? 也 就 是 说 ， 你 如 何 找 到 那个 比 50 个 人 高 ， 并 且 比 50 个 人 矮 
的 人 ? \ 


下 一 第 描述 了 本 章 的 中 心 问题 : 从 一 个 N 元 集合 中 选 出 第 玉 小 的 元 素 。 PR nN 
一 个 解决 该 问题 的 程序 ， 再 下 面 一 Tee 的 运行 时 间 。 


15.1 问题 


这 是 从 一 个 标题 为 RMN ALE” 的 表 中 摘录 的 ， 该 表 给 由 了 1980 年 每 平方 英里 人 
口 数 量 。 









西 弗 吉 尼 亚 
北 卡罗来纳 
弗吉尼亚 
宾夕法尼亚 
纽约 
马里 兰 
康涅狄格 
新 泽 西 
哥伦比亚 特区 


如 果 你 必须 从 中 选 出 一 个 “典型 的 ”人 口 密度 来 描述 这 9 个 相 邻 的 州 ， 那 么 你 会 选 哪个 呢 ? 


80.8 
120.4 
134.7 
264.3 
370.6 
428.7 
637.8 

986.2 

10 132.3 













其 数学 平均 值 是 1461.8, 但 是 这 看 起 来 似乎 太 高 了 : 它 比 这 9 个 州 中 的 8 个 都 要 高 。 纽约 州 这 个 “中 [159] 


闻 ” 值 370.6 似 乎 更 有 代表 性 ， 它 是 9% 个 中 第 5 大 的 。 统 计 学 家 称 一 个 2M +1 元 集合 中 的 第 M +1 小 
的 元 素 为 中 位 数 ， 即 它 的 第 50 个 百 分 位 数 。 在 本 章 的 后 面 ， 我 们 会 用 到 中 位 数 或 者 其 他 百 分 位 数 
来 分 析 选 择 算 法 的 运行 时 间 。 


计算 机 科学 家 在 许多 “分 治 ” 算 法 中 用 到 中 位 数 。 中 位 数 把 一 个 集合 分 成 两 个 子 集 ， 这 样 算 
法 可 以 递归 地 进行 处 理 。 习 题 8 用 到 了 一 个 具有 这 种 结构 的 算法 。 此 外 ， 选 择 问题 还 是 比较 算法 
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理论 的 一 种 实际 应 用 ， 习 题 9 给 出 了 另外 两 个 具有 代表 性 的 问题 。 


我 们 现在 从 抽象 的 集合 世界 转 到 具体 的 程序 世界 。 选 择 程序 的 输入 是 正 整数 NW、 数 组 X[1..V] 
以 及 下 整数 kK ( 志 N)。 程 序 必须 排列 数组 使 得 邓 [1..K-1] 志 XX [名 二 X[K+1..N]。 这 样 ， 第 KK 小 的 元 素 
停留 在 了 属于 它 自 己 的 位 置 X[K] 上 。 


15.2 程序 


简单 的 选择 程序 只 需 对 数组 xX 排序 即 可 。 但 是 ， 这 种 直接 的 解法 需要 O(N log N) 的 时 间 。 在 
本 节 中 ， 我 们 学 习 一 个 由 C. A. R. Hoare 给 出 的 快速 算法 。 他 的 方法 在 平均 OWN) 的 时 间 内 选 出 第 
K 小 的 元 素 。Hoare 称 他 的 程序 为 Find， 我 称 本 章 中 的 实现 为 $elect。 


Hoare 的 选择 算法 与 他 的 快速 排序 程序 紧密 相关 ， 该 分 治 算法 快速 排序 〉 可 以 描述 如 下 : 


procedure QSort(set 5): sequence 
if size(S) <= 1 then 
return the element in S 
else 

partition S around a random element 
T into subsets A and B such that ` 
elements in A are less than T and 
elements in B are greater than T 

return QSort(A) followed by T 
Followed by QSort(B) 


程序 的 输入 是 一 个 集合 , 它 的 输出 是 将 其 中 的 元 素 排 好 序 的 序列 。 输 入 和 输出 用 数组 有 效 地 
实现 : 分 向 量 X[L.. 可 的 序列 由 两 个 整数 L 和 UU 表示 。 


选择 算法 与 快速 排序 有 相同 的 结构 。 给 定 L 志 KK 志 U， 它 寻找 X[K] 这 个 位 置 的 所 有 者 〈( 即 第 
KK 小 的 元 素 ) 的 第 一 步 是 根据 一 个 随机 选取 的 元 素 把 数组 划分 开 。 此 时 ， 人 快速 排序 递归 地 对 两 个 
子 序列 进行 操作 ， 而 选择 算法 为 了 节省 时 间 ， 只 对 含有 K 的 那 一 部 分 重复 操作 。 下 面 是 选择 算法 
寻找 一 个 21 元 数组 的 中 位 数 的 过 程 : 


[21 5 15 7 19 7 Q)75 65 39 25 73 98 95 53 39 27 63 46 58 82| 
|27 25 G9) 65 73 98 95 53 75 39 63 46 58 82| 
|58 73 53 65 39 63 46(75)98 95 82| 

|46 396365 73 63 58| 


|21 5 15 7 19 7 222725 39 39) 46 53 65 73 63 58 75 98 95 82] 


图 中 的 每 一 行 代表 算法 的 一 个 状态 , Bla FT HR ST BA RAS oP A 70 AE FA RY 
元 素 ， 它 左边 的 元 素 比 它 小 ， 右 边 的 元 素 大 于 或 等 于 它 。 
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一 个 循环 的 选择 算法 可 以 如 下 描述 。 


set range to entire array 
while range is large do 
partition range 
repeat on proper subrange 


我 们 先 研究 划分 的 代码 ， 然 后 再 转 到 完整 的 算法 。 
程序 根据 ZX[Z] 的 值 划分 数组 XIE. 办。 在 第 六 1 步 循环 之 后 ， 循 环 不 变 式 可 以 描述 为 


迭代 步 又 检查 第 ! 个 元 素 。 如 果 X[1]1 宇 T ， 那 么 循环 不 变 式 保持 为 真 。 当 XX[I1<T 时 ， 我 们 增加 
M 的 值 以 表示 新 的 较 小 元 素 的 位 置 ， 然 后 交换 XIM] 和 XH 有。 当 三 U+1 的 时 候 ， 循 环 结 束 ， 得 到 


Q 


X 
C 


最 后 的 那 次 交换 保证 了 我 们 能 够 接着 对 L~M-1 或 者 M+1~U 进 行 操作 。 对 于 这 两 种 情况 , 我 们 都 把 
XU 排除 在 外 了 ， 从 而 避免 了 无 限 循环 。 


对 于 茶 些 规则 的 输入 ， 根 据 第 一 个 元 素 划 分 数组 可 能 消耗 额外 的 时 间 。 例 如 ， 数 组 已 经 是 排 
好 序 的。 我们 最 好 随机 选择 一 个 划分 元 素 。 我 们 通过 交换 [LJ 和 X[L.. 吕 中 的 随机 的 一 项 来 完成 ， 
其 中 利用 到 13.1 节 的 函数 RandInt (1,U) ， 它 返回 区 间 亿 .四 之 间 的 一 个 随机 整数 。 完 整 的 划分 
代码 如 下 : 


Swap(X[L], X[RandInt (L,U)]) 
M := L 


for I := L+1 to U do 
if X[I] < X[L] then 
M := M+i 


Swap (X[M1, X[I1]) 
Swap (X[L], X[M]) 


终止 的 时 候 ， 我 们 可 以 知道 XEL..M -1] < X[M]< XIM +1.U]. 
有 了 这 个 划分 代码 ， 我 们 可 以 专注 于 完整 的 选择 子 程序 了 。 我 们 的 第 一 个 版 本 是 递归 的 : 
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Select(L,U,K) 划 分 数组 X[L..]， 使 得 久 [L..K -1)< X[K] < X[K4+1.U]. MELEU, MATRA 
中 最 多 含有 一 个 元 素 ， 于 是 我 们 可 以 停止 了 ; 和 否则， 我们 根据 元 素 7 划 分 数组 ，7 被 放 在 X[M] 中 。 
根据 MM 的 值 ，K 的 位 置 有 3 种 情形 : 


情形 1 情形 2 情形 3 
L M U 


情形 2 是 最 简单 的 。 当 K=M 时 ， 第 K 小 的 元 素 已 经 在 它 的 最 终 位 置 了 ， 程 序 结束 。 当 K<M， 我 们 
有 情形 1: 第 K 小 的 元 素 不 可 能 在 X[M..0] 中 ， 于 是 我 们 排除 那个 区 间 ， 递 归 地 对 区 间 [L, M~1] 进 行 
操作 。 情 形 3 是 类 似 的 ， 弟 归 的 程序 可 以 描述 如 下 : 


procedure Select(L, U, K) 
pre L <= K <= U 
post X[L..K-1] <= X[K] <= X[K+1..0U] 
if L < U then 

/* Partition X[L..U] so that 
X[L..M-1] <= X[M] <= X[M+1..U] */ 

if K < M then Select(L, M-1, K) 

else if K > M then Select (M+], U, K) 

/* else K = M so finished «/ 


由 于 XIEM] 在 每 一 次 递归 调用 时 被 排除 在 外 ， 所 以 程序 不 可 能 无 休止 地 循环 。 


上 面 程序 的 递归 调用 具有 一 种 特殊 的 形式 ， 称 为 尾 递 归 : 调用 总 是 程序 的 最 后 一 个 动作 。 尾 
违 归 的 程序 总 能 转换 成 一 个 等 价 的 while 循 环 。 我们 现在 研究 一 个 迭代 的 选择 程序 ， 这 在 前 面 的 
3.2 节 曾经 见 过 。 它 把 L 和 UU 用 作 局 部 变量 ， 保 持 L<K<U 直 到 循环 结束 。 在 根据 X[M] 划 分 之 后 ， 
代码 通过 调整 [或 U 的 值 (有 时 两 者 都 改变 ) 来 缩小 区 间 [L, 加。 下 面 是 选择 程序 的 最 终 版 本 : 


procedure Select (K) 
pre: 1 <= K <= N 
post: X[1..K-1] <= X[K] <= X[K+1..N] 
L := 1; U := N 
while L < U do 
/* Invariant: X[1..L-1] <= X[L..U] <= X[U41..N] */ 
Swap (X[L], X[RandInt (L, U})]) 
M := L 
for I := L+1 to U do 
/* Invariant: X[L+1..M] < X[L] 
and X[M+1..1I-1] >= X[L] */ 
if X[I] < X[L]° then 
M := Mtl 
Swap(X(Mj], X{[I]) 
Swap (X[L], X[M]) 
/* X[1..L-1] <= X[L..U] <= X[U+1..N] 
and X[L..M-1] < X{M] <= X[M+1..U] */ 
if K <= M then U := M-1 
if K >= M then L := M+1 
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这 将 是 我 们 在 本 章 接 下 来 的 部 分 中 所 要 研究 的 选择 算法 ， 它 对 于 常见 的 日 常 应 用 也 是 不 错 
的 。 但 是 ， 对 于 应 用 于 工程 中 的 选择 子 程序 ， 还 应 当 作 一 些 改进 。 关 于 划分 部 分 的 代码 加 速 ， 在 
习题 1、 习 题 2>、 习 题 4 和 习题 5 中 有 描述 。 


15.3 ”运行 时 间 分 析 


在 前 面 的 小 节 中 我 们 得 到 了 一 个 选择 程序 ， 并且 非 正式 地 分 析 了 它 的 正确 性 : 它 对 于 所 有 的 
输入 都 能 停机 ,而且 总 是 计算 出 正确 的 结果 。 现在 我 们 考虑 所 谓 的 线性 运行 时 间 。 在 O(N) 的 平均 
时 间 背 后 ， 真 观 的 想法 是 ， 常 见 的 循环 会 去 除 区 间 [L, 1 的 一 部 分 。 如 果 每 一 步 去 掉 一 半 的 元 素 ， 
那么 表达 式 

N+N/2+N/4+N/84+->-S2N 


就 能 描述 总 的 运行 时 间 了 。 


”本 节 通 过 观察 算法 的 工作 情况 来 支持 我 们 的 直觉 。 除了 观察 选择 算法 之 外 ， 这样 一 个 训练 也 
阐明 了 用 于 对 算法 进行 经 验 分 析 的 一 般 技 术 。( 习 题 6 介 绍 了 对 选择 算法 的 数学 分 析 。》 


15.2 节 的 第 一 幅 图 说 明了 当 输 入 是 一 个 21 元 的 数组 时 ， 算 法 的 执行 情况 。 这 幅 图 对 于 第 一 次 
研究 算法 是 有 用 的 , 但 是 它 太 注意 细节 了 ， 不 能 用 来 很 好 地 观察 算法 的 性 能 。 下 面 是 一 幅 类 似 的 
数组 的 图 ， 用 一 个 “线形 图 ”来 代表 一 些 计 算 : 


[23 18 45 79 9 40 79 55 @D 85 82| 
(È) 18 45 79 23 40 79 55| 
[55 45 18 23 40 G9 79] 
[23 18 @ 45 55| 
四 3 


| 9 23 18 40 45 G3) 79 79 82 85 82| 


水 平 线 代 表 每 次 循环 中 的 子 区 间 [L, 0]， 圆 点 代表 划分 元 素 ， BRARRK. RBM 
信息 要 少 〈 我 们 不 知道 正在 被 交换 的 值 )， 但 是 它 给 出 了 性 能 中 的 关键 : 计算 过 程 中 子 数 组 的 
大 小 。 


我 通过 在 选择 程序 中 的 关键 位 置 插 入 打印 语句 来 输出 插图 。 输出 结果 用 Grap 语 言 写 的 一 个 程 
序 来 处 理 ，Grap 语 言 是 用 来 描述 数据 的 图 形 化 显示 的 。 插 图 的 数组 部 分 需要 完整 的 信息 。 另 一 方 
面 ， 线 形 图 可 以 通过 这 个 只 保存 L 和 DC 的 值 的 程序 构造 出 来 ， 可 以 完全 不 考虑 数组 X: 


L := 1; U := N 
while L < U do 


tad 
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decrement Y 

M := RandInt(L, U) 

draw a line from L, Y to U, Y 
plot a bullet at M, Y 

if K <= M then U := M-1 

if K >= M then L := M+1 


如 果 数 组 没有 重复 元 素 ， 那 么 随机 选择 划分 元 素 使 得 在 L 到 U 之 间 每 一 个 位 置 结束 的 可 能 性 

是 相等 的 。 因此， 上 面 的 代码 设置 M 为 该 区 间 的 一 个 随机 整数 。 算 法 性 能 的 统计 性 质 没 有 对 输入 

的 概率 分 布 做 出 假设 ， 变 式 是 一 个 随机 Swap 语 句 的 函数 。 下 面 是 程序 从 101 个 元 素 中 选 出 中 位 数 
的 5 次 运行 情况 。 右 面 的 数 表 示 每 次 运行 中 进行 比较 的 总 次 数 。 


564 


E 199 
Ss 227 
二 255 
SSS" 356 


每 次 将 区 间 减 半 的 模型 意味 着 选 出 101 个 元 素 的 中 位 数 需 要 大 约 
100+50+25+---= 200 


次 比较 。 上 面 的 插图 说 明 这 个 模型 还 不 完善 ， 但 是 仍然 有 用 。 第 二 次 的 计算 很 接近 这 个 模型 ， 每 
次 猜测 都 接近 平分 当前 的 区 间 。 第 一 次 的 计算 尤其 不 幸 ; 它 选择 了 接近 区 间 端 点 的 几 个 划分 元 素 。 
后 面 的 三 次 计算 处 于 这 两 个 极端 情况 之 间 。 这 个 折 半 的 模型 说 明 算法 用 到 2N 次 比较 。 实 验 表明 程 
PZI EE Cuan XN 次 比较 ， 其 中 Cuan >2。 

为 了 估计 常数 Ceass， 我 们 收集 算法 使 用 比较 的 次 数 的 数据 。 我 们 使 用 下 面 这 个 “骨架 ” 程 
序 来 计算 比较 次 数 ， 而 不 是 对 真实 的 数据 运行 完整 的 算法 : 


CCount := 0 
L := 1; U := N 
while L < U do 


cCount := CCount + U-L 
M := Randint(L, U) 

if K <= M then U := M-1 
if K >= M then L := M+1 


选择 程序 用 到 U-L 次 比较 来 划分 [L, 可 区 间 内 的 U-L+1 个 元 素 。 上 面 的 程序 可 以 在 几 十 步 内 模 
拟 一 个 规模 为 N=10* 的 集合 上 的 几 百 万 步 计 算 。 


下 一 幅 图 画 出 了 101 次 选择 中 位 数 的 结果 ，N 的 5 个 取 值 从 101 到 1 000 001. 左边 的 图 表示 完整 
的 数据 : 每 一 道 标 记 记 录 了 一 次 实验 中 的 比较 次 数 用 N 除 的 结果 ， 这 样 可 以 估计 常数 Cogsn 的 值 。 
因此 ，C,wgiw 的 值 看 来 在 2 到 6 之 间 ， 但 是 重 辣 的 阴影 部 分 迹 挡 了 信息 。 
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101 10 001 1 000 001 101 10001 1000001 
N N 


右边 的 图 用 J. W. Tukey 的 “方块 和 胡须 图 ”对 左边 的 图 作 了 概括 。 方 块 中 间 的 水 平 线 代 表 样 
本 的 中 位 数 ， 顶 部 和 底部 的 线 代 表 上 和 下 四 分 位 点 (在 本 例 中 ， 即 101 个 实数 集合 中 第 26 和 76 小 
的 元 素 )。 方 块 外 的 线 表 示 第 5 和 95 百 分 点 ， 超 出 这 个 范围 的 极端 的 点 也 明确 画 出 了 。 通 过 加 深 强 
调 重 要 的 分 位 点 ， 方 块 说明 Cnegian 趋 向 于 在 3 和 4 之 间 。 在 1971 年 ，Knuth 从 数学 上 证 明了 当 N 变 大 
时 ， 它 的 平均 值 趋 近 于 3.39。 右 图 中 的 5 个 中 位 数 依次 是 2.90、3.28、3.24、3.37 和 3.32。 


到 现在 为 止 ， 我 们 关注 的 是 计算 中 位 数 。 下 面 的 图 显示 的 是 选择 第 KK 小 的 值 的 数据 ， 
K=1,100 001, 200 001,…, 1000 001 时 ，N 固 定 为 1000 001。 这 说 明 计算 中 位 数 的 代价 是 最 大 的 ， 而 
其 他 的 值 需要 的 计算 比较 少 。 


6 


每 个 元 素 的 4 
比较 次 数 


ua 
IIH ti 


UER N | 


— 
Eo 
L- 

— E 
zg 
B= 
a 8 
_ a! 
pp 

— m 


— 
—_ 
= 
a 


2 





1 500 001 t 000 001 1 500 001 1 000 001 
K K 


cn 


148 第 15 章 选 # 


右 图 中 的 “方块 和 胡须 ”图 把 信息 表达 得 更 清楚 了 。 我 们 已 经 知道 中 位 数 需要 大 约 3.4N 次 比 
较 。 这 幅 图 说 明 最 小 和 最 大 值 需要 大 约 2N 次 比较 。 它 也 说 明了 开销 是 关于 中 位 数 对 称 的 。 从 直观 
上 看 是 这 样 的 一 一 选择 第 K 小 的 元 素 反 过 来 就 是 选择 第 (N-K) 大 的 元 素 。 


到 现在 为 止 ， 我 们 对 于 选择 算法 的 分 析 都 专注 于 这 样 的 事实 : 它 需 要 OCN) 次 比较 。 因 为 它 在 
每 次 比较 的 时 候 ， 只 需要 常数 多 次 其 他 的 操作 ， 所 以 总 的 运行 时 间 还 是 线性 的 。 为 了 更 深入 地 观 
察 ， 我 用 C 在 一 台 VAX-11/7S0 上 实现 了 选择 算法 ， 并 将 它 与 C 库 函数 中 的 gasozt 进 行 比较 。 系 统 
排序 需要 大 约 100NlogzN 微 秒 来 排序 一 个 N 元 数组 ， 而 选择 算法 在 大 约 100N 微 秒 之 内 就 找到 了 中 
位 数 。 对 于 N=100 000， 这 把 需要 近 三 分 钟 的 排序 转换 成 了 10 秒 钟 的 选择 。 


15.4 原理 


我 们 分 析 了 Hoare 的 选择 算法 的 两 个 方面 ， 它 的 结果 是 正确 的 ， 并 且 它 的 计算 很 有 效率 。 这 
个 练习 说 明 了 程序 分 析 中 的 两 个 要 点 。 


系列 分 析 。 有 几 个 原因 让 我 相信 选择 程序 是 正确 的 。 本章 既 给 出 了 一 个 非 正 式 的 正确 性 说 明 ， 
还 用 由 程序 自己 生成 的 ) 图 说 明了 算法 的 工作 情况 。3.2 节 描述 了 用 于 观察 程序 工作 情况 和 测 
试 程序 的 脚手架 平台 。 这 些 分 析 中 的 每 一 个 都 支持 了 其 他 的 : 观察 工作 中 的 程序 可 以 弄 清 循环 不 
变 式 ， 这 对 于 测试 也 是 有 用 的 。 


我 还 相信 选择 程序 对 于 几乎 没有 重复 元 素 的 数组 , 运行 时 间 在 O(N) 以 内 。 本 章 用 一 个 非 正式 
的 数学 分 析 〈“ 折 半 模 型 ”) 和 一 系列 的 实验 观察 了 工作 中 的 程序 。 程 序 生成 了 用 数组 描述 的 详 
细 的 图 ， 以 及 摘 述 子 区 间 大 小 的 “线形 图 ”和 计算 比较 次 数 的 图 。 这 一 系列 的 每 个 实验 对 计算 的 
描述 较 多 ， 但 是 针对 各 自 本 身 的 信息 较 少 。 习 题 6 延 续 了 这 个 趋势 ， 说 明了 如 何 对 程序 进行 抽象 ， 
最 终 得 到 一 个 数学 上 的 分 析 。 


骨架 程序 。 我 们 看 到 若干 个 这 样 的 程序 ， 它 们 无 需 执 行 完整 程序 的 所 有 动作 就 能 够 提供 关于 
选择 算法 的 信息 。 习 题 6 描述 了 另外 几 个 这 样 的 程序 。 选 择 程序 在 一 个 大 小 为 10 亿 的 集合 上 需要 
儿 十 亿 步 , 而 这 些 程序 能 够 在 几 十 步 内 收集 到 关于 同样 的 计算 的 信息 。 这 些 程序 代表 了 上 面 所 述 
的 一 系列 分 析 中 的 重要 中 心 上 。 


分 析 中 的 图 形 化 方法 。 程序 员 现 在 可 以 方便 地 使 用 图 形 输 出 了 。 我 们 应 该 利用 它 来 理解 我 们 
的 程序 。 本 章 中 的 所 有 图 片 都 使 用 简单 的 程序 (10~30 行 ) 画 出 来 的 。 详 细 的 图 展示 了 计算 的 
过 程 ，“ 数 组 块 ” 说 明了 循环 不 变 式 ,我 们 利用 它们 来 理解 算法 的 正确 性 。 我 们 可 以 用 图 来 分 
析 大 量 的 实验 数据 。 例 如 ， 最 后 一 幅 图 的 右边 部 分 用 了 大 约 150 条 水 平和 垂直 线段 代表 550 次 计 
算 ， 表示 了 超过 十 亿 次 比较 。 从 数学 上 分 析 算 法 一 般 是 非常 难 的 ， 但 是 模拟 和 图 多 数 程序 员 都 
能 够 掌握 。 
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15.5 Sai 


1. 


从 子 区 间 中 随机 选择 一 个 划分 元 素 。 研 究 使 用 其 他 划分 元 素 的 有 效 性 《〈 例 如 使 用 第 一 、 正 中 
和 最 未 元 素 的 中 位 数 ， 或 者 一 个 更 大 样本 中 的 合适 的 代表 元 素 )。 


. 选择 算法 和 它 派 生出 的 算法 并 不 总 是 实现 选择 的 最 好 途径 。 你 是 如 何 从 一 个 3 元 数组 中 选 出 第 


2 小 的 元 素 的 ?如 果 K=6，N=11 呢 ?又 或 者 RK=1000，N=1 000000, 而 且 输 入 是 存储 在 一 卷 磁带 
上 的 呢 ? 


. 如 果 输 入 存储 在 磁带 上 ， 你 的 机 器 只 有 一 个 磁带 驱动 器 和 几 十 个 字 的 主 存 ， 你 如 何 找到 中 位 


数 ? 你 会 如 何 利 用 第 二 个 磁带 驱动 器 呢 ? 


. 尽管 选择 算法 的 平均 运行 时 间 为 O(N)， 但 是 在 最 坏 情 况 下 它 需 要 O(N ) 的 时 间 。 请 给 出 一 个 最 


坏 情况 运行 时 间 为 O(N) 的 算法 。 


. 对 下 列 问题 进行 实验 并 且 给 出 实验 数据 。 


a. 关于 运行 时 间 的 讨论 集中 于 所 用 的 比较 次 数 ， 这 是 好 的 ， 但 是 有 时 在 真实 的 机 器 上 这 是 一 
个 有 缺陷 的 指标 。 实 现 选 择 算 法 并 测量 它 的 运行 时 间 。 有 惊奇 的 发 现 吗 ? 

b， 从 选择 程序 中 删除 随机 Swap 语 句 。 平 均 运 行 时 间 如 何 变 化 ? 给 出 一 个 输入 ， 使 运行 时 间 达 
到 最 坏 情况 。 

c. 15.3 节 的 第 一 幅 图 中 ， 固 定 K 为 (N+1)/2 并 改变 N 的 值 ， 下 一 幅 图 中 国定 入 为 1000 001 而 让 K 
变化 。 试 给 出 一 个 关于 这 两 个 变量 的 函数 ， 它 能 描述 在 N 个 不 同 元 素 的 集合 中 找到 第 K 小 的 
元 率 所 需 的 平均 比较 次 数 。 另 外 ， 当 N 回 定 ， 开 变化 的 时 候 得 到 的 曲线 形状 是 怎样 的 ? 4K 
与 的 比值 是 常数 时 ， 曲 线 又 是 怎样 的 ? 

d 我 们 的 分 析 中 ， 假 设 输入 数组 中 没有 重复 元 素 。 AN RISE PEL TORR SEM BLUES K, 那 
么 选择 算法 的 性 能 会 如 何 ? 这 时 如 何 提高 性 能 ? 


. 这 个 问题 从 数学 上 研究 了 当 K=1 时 选择 程序 的 性 能 ， 即 选择 数组 中 的 最 小 元 素 。 用 来 计算 比较 


次 数 的 骨架 程序 (并 不 实际 选 出 最 小 元 素 ) 简 化 为 


U := N 

while U > 1 do 
CCount := CCount + U-1 
U := RandInt(1,U} - 1 


试 说 明 下 面 这 个 递归 程序 具有 同样 的 功能 


function CCount (N) 
if N <= 1 then 
return 0 
else 
return N-1 + CCount (RandIint (0,N-1)) 


150 第 15 章 å # 
如 果 C, 表示 程序 执行 后 CCount(N) 的 平均 值 ， 证 明 它 满足 递 推 关系 


C,=C, =0 
Cy=N-1+1/N È C, 
写 一 个 程序 用 来 计算 Cy, C477 Cy o GER: 先 使 用 一 个 表 C[0..MI 和 0O (M) 的 时 间 ， 然 后 改进 
算法 ， 使 运行 时 间 为 OUM)， 最 后 去 掉 该 表 。) 用 这 个 程序 刻画 Cw 的 行为 。 这 个 程序 的 一 个 可 能 
用 途 是 用 来 收集 数据 ， 男 一 个 途径 是 研究 它 的 结构 来 压缩 递归 。 


7. [J. M. Chambers] 选择 算法 保证 了 对 于 K 的 某 一 个 值 ， 有 XI1.. 必 志 寻 用 所 XIK+1..N]， 而 快速 排 
序 对 于 所 有 的 K 值 建立 了 这 个 条 件 。“ 部 分 排序 ”问题 要 求 对 区 间 [1, N] 内 的 一 组 整数 建立 这 
个 条 件 。 例 如 ， 在 画 101 个 值 的 方块 图 时 ， 我 们 感 兴趣 的 是 集合 {6, 26, 51, 76, 96}。 试 说 明 如 
何 修改 快速 排序 或 选择 算法 的 思想 来 进行 部 分 排序 。 给 出 输入 数组 1 KT1]<K[2] <: <KIM] 
N 和 X[1..N]， 程 序 应 该 使 得 


X[1..A{l]-1] <= X[K] S 
X[K[1]+1..K[2]-1] S X[K[2]] S 
X[K[2]+1..K[3]-1] < X[K[3]] < 


8， 在 这 个 问题 中 , 假设 数组 X 的 每 个 元 素 有 两 个 字段 XI] key EINTAK, XU we 
是 它 的 权重 (一 个 正 实数 )。 设 S 表 示 Dy cjcy X [i]t 。“ 权 重 中 位 数 ” 问 题 要 求 用 整数 划分 
数组 ， 使 得 下 面 的 条 件 成 立 : 


X[(1..K —1].key < X[K].key < X[K +1..N].key 
>, X[i].wt < 8/2 


5 X[ilwt<S/2 
修改 选择 算法 ， 在 线性 时 间 内 完成 这 个 任务 。 说 明 如 何 用 习题 4 的 一 个 解答 作为 子 程序 ， 在 
了 最 坏 情况 下 线性 时 间 解 决 此 问题 。 修 改 这 两 个 算法 用 来 找到 其 他 的 “权重 分 位 点 ”， 给 出 一 
个 实数 0<Q@<1， 找 到 一 个 元 素 使 得 所 有 具有 较 小 键 值 的 元 素 权重 之 和 至 多 为 OS， 而 所 有 具 
有 较 大 键 值 的 元 素 权 重 之 和 至 多 为 (1-0)5。 


9， 给 出 寻找 集合 中 最 小 和 最 大 的 元 素 的 算法 ， 以 及 寻找 最 大 和 第 二 大 的 元 素 的 算法 。 要 求 比较 
的 次 数 尽 可 能 少 。 


10. 尝试 用 其 他 的 图 形 来 表示 计算 。 例 如 ， 下 面 这 幅 图 表示 的 是 15.2 节 最 后 一 幅 图 中 的 计算 。 那 
幅 图 中 的 数 在 这 里 用 垂直 线 表示 。 党 试 把 这 种 表示 做 成 一 个 简单 的 动画 。 
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156 ”深入 阅读 


Hoare 最 初 是 在 1961 年 7 月 的 《ACM 通 讯 》 的 一 页 上 描述 了 快速 排序 和 Find 算 法 。 他 在 1971 
年 1 月 的 《ACM 通 讯 》 上 通过 论证 Find 的 正确 性 说 明了 程序 验证 这 个 年 轻 的 领域 。Knuth 在 1971 
年 国际 信息 处 理 联合 会 论文 集 第 19~27 页 的 “Mathematical Analysis of Algorithms” 中 ， 分 析 了 该 
算法 的 运行 时 间 。 在 1975 年 3 月 的 4ACM 通 讯 》 中 , Floyd 和 Rivest 提 出 了 一 个 只 需要 N+ 天 +O(VN) 
次 比较 的 选择 算法 。 他 们 的 算法 非常 接近 理论 的 最 优 值 了 ， 而 且 他 们 的 代码 运行 得 像 风 一 样 快 。 





C 和 Awk 语 言 


本 书 中 的 许多 程序 都 是 用 一 种 类 似 Algol 的 伪 代 码 写 的 。 但 是 ， 有 几 处 仍然 调用 了 实际 的 程 
序 。 我 选择 了 使 用 C 语 言 来 说 明 第 1 节 所 讨论 的 性 能 监视 工具 。 Awk 语 言 在 第 2 章 和 第 3 章 中 使 用 得 
很 多 ， 在 第 1 章 、 第 9 章 和 第 13 章 中 也 有 一 些 。 ~ 


A.1 C 语 言 


C 语 言 有 许多 的 教材 和 参考 手册 。 第 一 本 (也 是 至 今 我 仍 最 喜爱 的 一 本 ) 是 Kernighan 和 Ritchie 
的 The C Programming Language”; 由 Prentice-Hall 在 1978 年 出 版 ， 第 2 版 在 1988 年 出 版 。 本 节 概 述 


”了 第 1 章 中 用 到 的 C 语 言 的 一 些 知识 


语句 a=b 把 b 的 值 赋 给 a， Ee 表达 式 ab 表示 a 被 b 
除 的 余数 ， 如 10%7 得 到 3。printf 函 数 提供 格式 化 输出 语句 。 


语句 i++ 用 来 增加 整数 i 的 值 . ++ 操 作 符 也 可 以 用 在 表达 式 中 。 如 果 j 是 6, 那么 表达 式 x[j++] 
得 到 x[6] 并 设置 j 为 7， 而 x[++j] 设 置 j 为 7 且 得 到 x[7]。 减 量 操作 符 -- 是 类 似 的 : x[--j] 设 置 
j 为 5 而 得 到 x[5]。 


if 语 句 的 形式 为 


if (expression) statement 


Pascal 循 环 


for 1 := a to b do statement 


用 C 写 成 


for (1 = a; i <= b; i++) statement 
A.2 Awk 语言 


Awk 的 权威 参考 书 是 Aho、Kernighan 和 Weinberger 的 4WK Programming Language， 在 2.6 节 提 


O 该 书 第 2 版 的 英文 影印 版 及 中 译 版 已 由 机 械 工业 出 版 社 出 版 ， 中 文书 名 《C 程 序 设 计 语 言 )。 一 一 编者 注 
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到 过 。Awk 的 许多 语法 都 借用 了 C 语 言 的 。 特 别 的 是 ， 上 一 节 出 现 的 所 有 结构 在 Awk 中 是 相同 的 。 


简单 的 Awk 语 言 能 够 完成 有 趣 的 计算 。 这 里 是 一 个 完整 的 程序 ， 它 将 一 个 文件 中 的 所 有 数 作 
为 输入 ， 计 算 它们 的 以 2 为 底 的 对 数 。 


{ print log($1)/log(2) 1 


给 定 输入 文件 


2 
16 
4 
10 


它 产 生 输 出 文件 


程序 中 说 明了 几 个 重要 的 Awk 服 务 。 花 插 号 中 的 print 语 句 对 输入 文件 的 所 有 行进 行 循 环 ， 程 序 
员 无 需 担 心 输入 循环 的 细节 。 此 外 ，Awk 把 输入 行 划 分 成 字段 , 第 一 个 字段 称 为 sS1， 第 二 个 为 $2， 
等 等 。print 语 句 中 的 表达 式 使 用 了 算术 的 和 内 建 的 1og 函 数 。 


我 们 在 这 本 书 中 研究 的 许多 Awk 程 序 基 有 下 面 的 结构 : 


BEGIN { preprocessing } 
{ action for each input line } 
END { postprocessing } 


在 读 取 第 一 行 之 前 会 进行 预 处 理 ， 在 最 后 一 行 读 取 之 后 进行 后 处 理 。 这 三 个 部 分 中 的 任何 一 个 都 
可 以 省 略 。Awk 使 用 花 括 号 来 组 合 语句 ，Pascal 则 用 begin 和 enq 来 组 合 语句 。 


通常 ，Awk 程 序 由 “模式 -动作 ”对 构成 。 如 果 输 入 行 匹配 左边 的 模式 ， 那 么 右边 的 代码 将 
被 执行 ， 这 个 过 程 将 对 每 一 个 模式 和 每 一 行 输入 进行 重复 。BEGIN 和 END 是 在 文件 读 取 之 前 和 读 
取 之 后 进行 匹配 的 特殊 模式 。 


下 一 个 程序 的 输入 行 包 含 两 个 字段 。 第 一 个 字段 是 一 个 正 数 ， 第 二 个 是 字符 串 。 输 出 是 文件 
中 最 大 的 数 和 对 应 的 字符 串 。 

$1 > maxval { maxval = S1; maxname = $2 } 

END { print "Maximum value: " maxval 


print "Associated name: " maxname 


} 


Awk 在 变量 第 一 次 使 用 时 进行 初始 化 〈 数 初始 化 为 0， 字 符 串 初始 化 为 空 )， 所 以 上 面 的 程序 
无 需 显 式 地 初始 化 maxval。 第 一 个 动作 中 的 两 条 语句 用 一 个 分 号 分 隔 ， 不 在 同一 行 的 语句 不 需 


HRA C 和 Awk 语 言 155 


要 分 与 。 


接 下 来 的 程序 计算 输入 文件 中 的 数 的 平均 值 ， 文 件 中 一 行 可 能 包含 多 个 数 。 当 Awk 处 理 输入 
文件 时 ， 它 会 把 字段 的 个 数 存 储 在 变量 NF 中 。 
{ for (i = 1; i <= NF; i++} { 
sum = sum + $i 
} 
} 
END { print "Average of", n, "numbers is", sum/n } 
AwKk 在 运行 时 可 以 很 方便 地 转换 数 和 字符 串 。 在 本 书 中 的 大 多 数 程序 中 ， 应 当 清楚 地 区 分 它们 ; 
规则 的 细节 可 以 参见 Awk 手 册 。 


Awk 函 数 与 C 函 数 很 类 似 ， 但 是 它 没有 变量 声明 。 因 此 ， 在 一 个 函数 中 声明 局 部 变量 的 方法 


是 把 它 放 在 参数 表 中 。 我 把 实 参 放 在 参数 表 的 第 一 部 分 , 然后 是 局 部 变量 , 中 间 用 两 个 空格 隔 开 。 
隙 数 可 以 用 return 语 句 返 回 一 个 值 。 





PU RPATI NENEN TERE. 集合 算法 用 于 操作 数组 x[1..n]。 程 序 执行 时 ， 已 经 


通过 了 所 有 的 测试 。 


”选择 算法 select 在 第 15 章 中 进行 了 描述 。 其 他 的 子 程序 来 自 于 ?编程 珠 现 》 第 1 版 并 在 该 


书 的 相应 章节 进行 了 证 明 。 


完整 的 Awk 算 法 在 下 面 给 出 。 最 前 面 是 集合 算法 ， 然后 是 测试 程序 ， 最 后 是 主 程序 。 





函数 名 称 













qsort 快速 排序 

isort 插入 排序 
siftup HE 

siftdown | HE 

hsort 堆 排 序 
pqinit 初始 化 优先 队列 
pqinsert 优先 队列 插入 
pgextractmin | 优先 队列 提取 
ssearch 顺序 搜索 











bsearch 


—- 





一 分 搜索 






# UTILITY ROUTINES AND SET ALGORITHMS 


function swap(i, 


3, E) {4 # xli] <=: 


t = x[i]; xli] = xfijl; xlji =t 


} 


function randint(l, u) { # rand int in 1] u 


return 1 + int((u-1+1)*rand()) 


} 


function select(k, 1, u, i, t, m) { 


# post: 
# bugs: 
Los i; u = 


x[1..k-1] <= fk] <= x[k+1..n] 
xin) 


n**2 time if x[1]=.. 
n 


x[j] 





10.1 
12.2 
12.2 
12.4 


123 


12.3 
12.3 
22 
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while (1 < u} { 
# x[1..1-1] <= x[l..u] <= x[u+1..n] 
swap(l, randint(l1,u)) 


t = x[1] 
m = 1 
for (i = l+1; i <= u; i++) { 


# x[1l+1..m) < t and x[m+1..i-1] >= t 
if (x[i] < t) swap(++m,i) 

} 

swap (1,m) 

# x[l..m-1] <= x{m) <= x[m+1..u] 

if (m <= k) 1 = mil 

if (m >= k) u = m1 


function qsort(l, u, i, t, m) { 
# post: sorted{l1,u) 
# bugs: n**2 time if x[1]=...=x[n] 
if (1 < u) { 
swap(1, randint (1, u)) 


t = x[1] 
m = 1 
for (i = l+1; i <= u; i++) { 


# x[1l+1..m] < t and x[m+1..i-1] >= t 
if (x[i] < t) swap(++m, i) 

} 

swap{l, m) 

# x[1l..m-1] <= x[m] <= x[m+1..u] 

qsort(1, m-1) 

qsort (m+1, u) 


function isort( i, j} f{ 
# post: sorted{i,n) 


for (i = 2; 1 <= n; i++) { 
# sorted(1, i-1) 
j = i 


while (j > 1 && x[j-1] > x[j]) { 
swap(j-1, j) 
j-- 


function siftup(l, u, i, p} { 
# pre maxheap(l,u-1) 
# post maxheap (1,u) 


i= u 
while (1) {f{ 


# maxheap(l,u) except between 


# i and its parent 

if (i <= 1) break 

p = int(i/2) 

if (x{p]) >= x[i]} break 
swap(p, i) 

i =p 


function siftdown(l, u, ił, c) { 
# pre maxheap(1+1,u) 
# post maxheap(1,u) 
i = 1 
while (1) { 


# maxheap(l,u) except between 


# i and its children 
c = Qi 
if (c > u) break 


if (c+1 <= u && x[ct+1] > x[c])}) c++ 


if (x[i] >= xIc]) break 
swap(c, 1) 
i = cœ 


function hsort( i) { 
# post sorted(1,n) 


for (i = int(n/2); i >= 1; i--) 
siftdown(i,n) 
for (i = n; i >= 2; i--) { 
swap(1,i); siftdown(1,1-1) 
} 
} 
function pqinit(i) { 
pomax = i 
n= 0 
} 


function pqinsert(t) { 
# post t is added to set 
assert(n < pamax) 
x[++n] = t 
siftup(1, n) 
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function pgqextractmax( t) { 
# pre set isn't empty 
# post max is deleted and returned 
assert(n >= 1) 
t = x[1]; x[1] = x[n--] 
siftdown(i, n) 


return t 
} 
function ssearch(t, i) { 
# post result=0 => x[1..n] != 七 
# l<=result<=n => xfresult] = t 
i = 1 
while (i <= n && x[i] != t) i++ 
if (i <= n} return i; else return 0 
} 


function bsearch(t, 1,u,m) { 


+t pre x[1] <= x[{2] <= ... <= x[n] 
# post result=0 => x[1l..n] != t 
# l<=result<=n => x[result] = t 


1 = 1; ue=zn 

while {1 <= u) f{ 
# t is in x[l..n]) => t is in x[l..u] 
m = int((l+u)/2) 
if (xim] < t) 1 
else if (x[m] > t) u 
else return m 


m+1 


m-1 


} 


return 0 


# TESTING ROUTINES 


function genequal( i) { # fill x 


for (i = 1; i <= n; i++) x[i] = 1 
} 
function geninorder ({ i) { # fill x 
for (i = 1; i <= n; i++) x[i] = i 
} 


function scramble ( i) { # shuffle x 
for (i = 1; i < n; i++) 
swap (i, randint(i, n)) 
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function assert (cond) { 
if (!cond) {f{ 
errcnt++ 
print " >> assert failed <<" 


function checkselect(k, i) { 


for (i = 1; i < k; i++} 
assert (x[i] <= x[k]) 
for (i = k+l; i <= n; itt) 


assert(x[i] >= x[k]) 


function checksort ( 1) { 
for (i = 1; i < n; i++) 
assert (x[i] <= xf{it+1]) 


function clearsubs { i) { # clear array x 
for (i in x) delete x[i] 


function checksubs( i,c} { # alters x 
# error if subscripts not in 1..n 


for (i = 1; i <= n; i++) delete x[i] 
for (1 in x) c++ 
assert(c == 0) 


function sort() { # call proper sort 


if (sortname == "qsort") qsort(1, n) 
else if (sortname == "hsort") hsort() 
else if (sortname == "isort") isort() 


else print "invalid sort name” 


function testsort(name, i, nfac) { 


sortname = name 

print " pathological tests" 

for (n = 0; n <= bign; n++) { 
print " n=", n 


clearsubs () 

geninorder(); sort(); checksort() 

for (i = 1; i <= n/2; i++) swap(i, n+1~-i) 
sort (Y; checksort () 


162 WAB 子 程 序 库 


genequal(); sort(); checksort() 
checksubs () 

} 

print " random tests" 

nfac = 1 

for (n = 1; n <= smalln; nt+) { 
print " n=", n 
nfac = nfac*n 
clearsubs () 
geninorder (); 
for (i = 1; 2 <= nfac; i++) { 

scramble(); sort(); checksort() 

} 
checksubs () 

} 


function search(t) { # call proper search 


if {searchname == "bsearch") 
return bsearch(t}) 
else if (searchname == "ssearch") 


return ssearch(t} 
else print "invalid search name" 


function testsearch(name, i) { 
searchname = name 
for {n = 0; n <= bign; nt+) { 
print " n=", n 
clearsubs ( ) 
geninorder () 
for (i = 1; i <= n; i++) { 
assert (search(i) == i} 
assert (search(i-.5) == 0) 
assert (search(i+.5) == 0) 
} 
genequal () 
assert (search(0.5} == 0) 
if (n > Q) assert(search(1) >= 1) 
assert (search(1) <= n) 
assert (search(1.5) == 06) 
checksubs () 


BEGIN { # MAIN PROGRAM 

bign = 12 . 

smalin = 5 

print "testing assert -- should fail" 


附录 B 子 程序 库 163 





assert(l == 0) 
print "testing select" 
for (n = 0; n <= bign; n++){ 
print " n=", n 
clearsubs() 
for {i = 1; i <= n; itt) f{ 


geninorder () 
select (i) 
checkselect (i) 


} 

for (i = 1; i <= n; i++) { 
scramble () 
select (1) 
checkselect (i) 

} 

genequal () 

for (i = 1; i <= n; i++) { 
select (i) 
checkselect (1) 

} 

checksubs () 


print "testing quick sort" 
testsort ("qsort”) 

print "testing insertion sort" 
testsort ("isort") 

print "testing heap sort" 
testsort ("hsort") 


print "testing priority queues" 


for (m = 0; m <= bign; m++) { 

# m is max heap size 

print " m=", m 

clearsubs () 

pqinit (m) 

for (i = 1; i <= m; i++) 
pqinsert (i) 

for (1 = m; i >= 1; i--) 
assert (pgextractmax() == i) 

assert(n == 0) 

pqinit (m) 

for (i = m; i >= 1; 1i--) 
pqinsert (1) 

for (i = m; i >= 1; 1i--) 
assert (pgextractmax() == i) 

assert(n == 0) 

painit (m) 

for (i = 1; i <= m; itt) 


pqinsert (1) 
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for (1 = m; i >= 1; i--) 
assert (pqextractmax() == 1) 

assert(n == 0) 

n = m; checksubs() 


print "testing sequential search" 
testsearch("ssearch") 

print "testing binary search" 
testsearch("bsearch") 

print "total errors (1 expected):", errent 


if (errent > 1) print ">>>> TEST FAILED <<<<" 
182 } 


l. 


bho 
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问题 可 以 重 述 为 : 已 知 数组 对 1..M 中 均匀 散布 着 [0,1] 中 的 实数 ， 求 这 个 子 程序 进行 了 多 少 次 
赋值 。 


Max := X[1] 


for I := 2 to N do 
if X[I] > Max then 
Max := X[TI] 


一 种 简单 的 想法 假设 if 语 句 有 约 一 半 的 时 间 被 执行 ， 那 么 程序 将 进行 大 概 N/2 次 赋值 。 我 在 
N=1 000 的 条 件 下 将 程序 运行 了 10 遍 ， 排 序 后 的 赋值 数 依 次 为 : 


4 4 5 5 6 7 8 8 8 9 


The Art of Computer Programming, Volume 1: Fundamental Algorithms 一 书 的 1.2.10 节 ,Knuth 说 明 
了 该 算法 在 平均 情况 下 进行 Hy 一 1 次 赋值 ， 其 中 
Hy=1+1/2+1/3+ ++ +1/N 


为 第 N 个 调和 数 。 对 N = 1000， 这 一 分 析 给 出 了 6.485 的 期 望 值 ， 而 10 次 实验 给 出 的 均值 为 6.4。 


.下面 的 C 程 序 实现 了 埃 氏 惫 法 来 计算 所 有 小 于 nn 的 素数 。 其 基本 数据 结构 是 wn 比特 数组 +， 初始 


值 全 部 为 1。 每 发 现 一 个 素数 ， 数 组 中 所 有 它 的 倍数 都 设 为 0。 下 一 个 素数 就 是 数组 中 的 下 一 
个 取 值 为 1 的 比特 位 。 性 能 监视 表明 小 于 100 000 的 素数 有 9 592 个 ， 算 法 进行 了 大 概 2.57N 次 赋 
值 。 一 般 地 ， 算 法 进行 WioglogN 次 赋值 ， 算 法 分 析 中 涉及 到 答案 1.1 中 的 素数 密度 和 调和 数 。 


下 面 是 加 上 性 能 监视 后 的 代码 : 


main () 
{ int i, p, n; 
char x[100002]; 

1 n = 100000; 
1 for {i = 1; i <= n; i++) 
100000 | x[i] = 1; 
1 x[1] = 0; x[n+1]) = 1; 
1 p= 2; 
9593 while (p <= n) { 


9592 printf ("%d\n", p); 


A 
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9592 for (i = 2*p; i <= n; i = i+p) 
256808 x[i] = 0; 

9592 do 

99999 ptt; 

99999 while (x[pŅp] == 0}; 


更 快速 的 素数 得 法 的 实现 ， 参 见 Mairson (1977479). Gries#lMisra (19784F12H) WR 
Pritchard (1981 年 1 月 ) 发 表 在 《ACM 通讯 》 中 的 论文 ,或 者 Pritchard 的 “Linear prime-number 
sieves: A family tree”， 刊 登 在 1987 年 Science of Computer Programming 第 9 卷 第 17~35 页 。 


3. 一 个 简单 的 用 于 语句 计数 的 性 能 监视 工具 每 执行 一 个 语句 就 增加 一 次 计数 。 满 足 于 更 少 的 计 
数 器 可 以 同时 减少 监视 程序 的 内 存 需 求 和 运行 时 间 。 例 如 ， 可 以 给 程序 流 图 中 的 每 个 基本 块 
天 联 一 个 计数 器 。 也 可 以 利用 “ 基 尔 霍 夫 第 一 定律 ”进一步 减少 计数 器 的 数量 ， 如 果 你 有 一 
个 if-then-else 语 句 的 计数 器 以 及 一 个 then 分 支 语 句 的 计数 器 ， ALARA HE elses} MiB 
句 的 计数 器 了 。 

6. 图 数 prime 中 的 for 循 环 可 能 存在 湾 在 的 死 循 环 。 为 了 说 明 该 循环 总 是 终止 ， 必 须 证 明 如 果 忆 
是 素数 ， 那 么 一 定 存在 另外 一 个 素数 小 于 户 。 这 一 定理 成 立 ， 但 证 明 却 很 困难 。 
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3. 在 The Art of Computer Programming, Volume 1: Fundamental Algorithms 的 练习 2.2.3-23 中 ,Knuth 
说 明了 如 何 打 印 输入 图 中 的 一 个 回路 ， 如 果 回 路 存在 的 话 。 


4. 这 是 一 个 由 三 维 场景 导出 的 有 回路 图 。 





它 是 有 回路 的 因为 a 必须 在 b 之 前 绘制 ， 同样，b 必 须 在 c 之 前 ，c 必 须 在 a 之 前 。 如 果 场 景 中 每 个 
物体 都 是 平 的 〈 也 就 是 说 ， 它 只 有 一 个 z 坐 标 值 )， 并 且 所 有 z 值 都 不 同 ， 那 么 这 些 z 值 就 形成 了 
一 个 全 序 且 场景 中 没有 回路 。 


5a. 这 个 Awk 程 序 癌 一 个 初始 为 空 的 二 分 搜索 树 中 插入 1000 个 随机 数 ， 然 后 遍历 这 棵 树 。 


BEGIN { <<<1l>>> n = 1000; root = null = -1 
for (i = 1; i <= n; i++) 
root = insert (root, int (n*rand())) 
traverse(root); exit 
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function insert(p, x) { <<<11840>>> 
if (p == null) { <<<632>>> 


val[p = +t+nodecount] = x 
lson[p] = rson[p] = null 

} else if (x < val[p]) { <<<4847>>> 
lson[(p] = insert(lson[pl], x) 

} else if (x > val[p]) { <<<5993>>> 
rson[p] = insert(rson[p], x) 

} else { <<<368>>> } 

return p 


} 
function traverse(p) { <<<1265>>> 
if (p != null) { <<<632>>> 
traverse(lson([p])} 
print val[p] 
traverse(rson[p]) 


} 


数 是 由 1.4 节 的 Awk 性 能 监视 工具 产生 的 。BEGIN 程 序 块 调用 insert 函 数 1000 次 ， 向 树 中 播 入 
632 个 新 数 并 返回 368 次 因为 这 些 数 已 经 在 树 中 。 平 均 情况 下 ， 每 次 插入 需要 11.8 次 递归 调用 。 


5b. 这 个 Awk 程 序 使 用 深度 优先 搜索 解决 可 达 性 问题 。 典 型 的 输入 行 包含 一 个 祖先 -后 代 对 ;对 序 
列 定义 了 一 个 有 向 图 。( 拓 扑 排序 程序 使 用 同样 的 格式 。) 
当 输 入 行为 reach x 时 ， 程 序 通 过 一 次 递归 的 深度 优先 搜索 打印 所 有 从 x 可 达 的 顶点 。 


function visit{node, i) { 


if (visited[node] == 0) { 
visited[node] = 1 
print " " node 
for (i = 1; i <= succct [node]; i++) 


visit(succlist[node, i]) 
} 
} 


$1 == "reach" { print "Nodes reached from " $2 
for (1 in succct) 
visited[{i} = 0 
visit (S2) 
} 
$1 != "reach" { succlist[$1, ++suecct[$1]] = $2 
succct ($2) = 0 + succct[$2]) # make it exist 


} 


Aho、Weinberger 和 Kernighan 合 著 的 4WK Programming Language (2.6 节 曾 引用 ) 一 书 的 $.1 节 
给 出 了 随机 句子 生成 的 算法 ，7.3 节 给 出 了 拓扑 排序 的 深度 优先 搜索 实现 。 


6. 关联 数组 可 以 用 “符号 表 ” 的 数据 结构 实现 。 相 关 的 结构 包括 二 分 搜索 树 以 及 已 排序 和 未 排 
序 序列 。 然 而 ， 在 多 数 系统 上 ， 还 是 选择 用 Awk 使 用 的 结构 ， 散 列表 。 答 案 13.2 和 答案 13.6 考 
察 了 符号 表 的 几 种 实现 。 
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第 3 章 答 案 
1、2、3 题 的 答案 参考 下 面 这 个 用 Awk 编 写 的 堆 试 验 台 。 更 多 细节 可 以 在 我 的 《编程 珠 现 》 
第 1 版 的 第 12 章 中 找到 。 


function maxheapl(l, u, i) { # 1 if a heap 
for (i = 2*1; i <= u; i++) 
if (x[int(i/2)] < x[i]) 
return 0 
return i 





} 
function assert(cond, errmsg) { 
if (!cond) { 
print ">>> Assertion failed <<<" 
print " Error message: “, errmsg 
} 
} 
function siftdown(1l, u, i, c, t) { 
# precondition maxheap(1l+1,u) 
# postcondition maxheap(1,u) 


assert (maxheap(1+1, u), siftdown precondition") 
i = 1 
while (1) { 
# maxheap(1l,u) except between i and its children 
c = 2*1 


if (c > u) break 
if (ctl <= u && x[c+l] > x[c¢]) c++ 
if (x[i] >= x[c]) break 
t = x[i]; x[i] = x[c]; x[c] = t # swap i, c 
i= cœ 
} 
assert (maxheap(1, u}, "siftdown postcondition") 
} 
function draw{i, s) { 
if (i <= n) { 


print i ":", s, x[i] 

draw(2*i, s" ") 

Graw(2*itl, s " ") 

} 

} - 
$1 == "draw" { draw(l, "") } 
$1 == "down" { siftdown($2, $3) } 
$1 == "assert" { assert (maxheap($2, $3), "cmd") } 
$1 :: "x" { x[$2] : $3 } 
$1 == "n" {n= $2 } 


1. 递归 子 程序 draw 用 缩 进 格式 打印 堆 的 隐 式 树 结构 (递归 的 第 二 个 参数 是 缩 进 字符 串 s， 每 次 调 
用 在 其 尾部 加 4 个 空格 )。 
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. 修改 后 的 assert 子 程序 包含 一 个 提供 插入 失败 信息 的 字符 串 变 量 。 一 些 系统 提供 一 种 插入 工 


具 ， 它 能 自动 给 出 源 文件 和 无 效 插入 的 行 号 。 


. siftdown 子 程序 使 用 assert 和 maxheap 子 程序 来 测试 进入 和 退出 时 的 前 置 和 后 置 条 件 。 


maxheap 子 程序 需要 O(U 开 ) 时 间 ， 因此 assert 调 用 应 该 从 代码 的 产品 版 本 中 去 挥 。 


.附录 B 中 的 测试 忽略 了 我 第 一 个 siftup 程 序 中 的 错误 。 我 错误 地 用 赋值 i = n 将 i 初始 化 而 不 


是 i = u。 然 而 ， 在 我 的 所 有 测试 中 ，u 和 n 是 相等 的 ， 因 此 并 没有 发 现 该 错误 。 


. 15.3 节 给 出 了 有 关 选 择 集 合 中 第 小 元 素 的 Hoare 算 法 的 运行 时 间 的 实验 。 
. 为 测试 一 个 排序 子 程序 是 否 为 对 其 输入 的 重新 排列 ， 我 们 可 以 将 输入 复制 到 一 个 单独 的 数组 


中 ， 用 一 种 信得过 的 方法 进行 排序 ， 然 后 在 新 的 子 程序 运行 完毕 后 比较 这 两 个 数组 。 另 外 一 
种 方法 只 利用 几 个 字 节 的 内 存 ， 但 偶尔 会 出 错 : 使 用 数组 中 元 素 的 和 作为 这 些 元 素 的 签名 。 
改变 元 素 的 一 个 子 集合 会 以 很 高 的 概率 改变 元 素 之 和 。( 求 和 涉及 字 大 小 和 浮 点 加 法 的 不 可 结 
合 性 等 问题 ;其 他 的 签名 ， 比 如 异 或 ， 就 避免 了 这 些 问题 。) 
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2. 


TEUNIX Programming Environment (Prentice-Hall, 1984) 的 3.9 节 ，Kemighan 和 Pike 给 出 了 一 
个 名 叫 bundle 的 程序 。 命 令 


bundle filel file2 file3 


生成 一 个 UNIX Shell 文 件 。 命 令 被 执行 后 ， 所 有 文件 都 会 被 复制 到 一 个 文件 卷 中 。 


. 任何 通用 计算 模型 中 都 存在 一 个 目 复 制程 序 。 证 明和 需要 利用 递归 定理 和 递归 函数 论 中 的 s-m-n 


定理 。 黑 客 们 一 直 乐 于 用 现实 中 的 语言 编写 自 复 制程 序 ， 其 中 Fortran 和 C 似 乎 特别 受 欢 迎 。 如 
果 人 允许 程序 在 错误 输出 上 进行 目 复 制 ， 那 么 本 题 的 程序 将 更 容易 。 如 果 你 从 一 个 小 文件 开始 
比如， 一 个 简单 的 垃圾 消息 )， 然 后 循环 地 将 编译 器 打印 的 错误 信息 作为 输入 反馈 给 编译 器 ， 
该 过 程 通常 会 很 快 收敛 。 


.UNIX 文件 系统 不 用 文件 类 型 对 文件 进行 分 类 ， 但 一 些 程序 却 使 用 文件 内 容 作为 其 隐 式 自 描 


述 。 比 如 ，file 命 令 检 查 一 个 文件 并 猜想 文件 内 容 是 ASCII 文 本 、 程 序 文 本 或 Shell 命 令 等 。 
在 答案 2 中 引用 的 那 本 书 里 ，Kernighan 和 Pike 给 出 一 个 名 为 aoctype 的 程序 ， 该 程序 读 取 一 个 
Troff 输 入 文件 然后 推断 对 其 需要 执行 哪 种 语言 的 预 处 理 器 〈 如 Pic 和 Tbl 等 )。 


. 名 字 - 值 对 的 例子 包括 PLV1 的 GET DATA 语 名 和 Fortran 的 NAMELIST。 数 组 和 函数 也 都 能 将 名 字 


映射 到 值 。 


. 一 个 一 般 的 原则 认为 ， 程 序 的 输出 应 该 适应 于 程序 的 输入 。 这 一 原则 对 管道 程序 以 及 允许 使 


用 鼠标 对 输入 进行 选择 和 重 定 同 为 输入 的 可 视 化 系统 尤为 重要 。 
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l. 


HAXH, REDO BGM — PA SBP ET REA . PARED IT ATES, BEST 
钟 也 可 以 键入 三 条 记录 ， 每 小 时 就 是 200 条 记录 。 因 此 ， 让 一 个 数据 输入 的 职员 使 用 熟悉 的 工 
具 重 新 键入 数据 应 该 只 需要 少 于 两 小 时 且 人 花费 少 于 0 美元。 一 种 目 动 化 的 解决 方案 需要 在 两 
台 PC 上 都 安装 固定 的 软件 〈 在 自行 编写 代码 之 前 我 会 努力 搜索 软件 包 )， 同 样 还 要 获得 调制 解 
调 器 。 尽 管 高 技术 性 的 解决 方案 明显 对 大 容量 数据 是 更 好 的 选择 ， 但 这 种 简单 的 解决 方案 对 
手头 的 问题 是 更 好 的 选择 。 


. Lynn Jelinski 从 她 父亲 Geoffrey Woodard 那 里 收 到 了 如 下 便条 ; 


传说 ， 有 一 个 实习 的 水 上 暖 工 被 派 去 寻找 一 个 给 左 搬 子 用 的 水 管 扳手 。 

爱迪生 给 他 的 新 展 员 指派 工作 让 他 判定 一 个 电灯 泡 的 容量 ， 这 用 测量 的 方式 很 难 
计算 ， 但 放 入 量 简 中 ， 用 排水 量 就 很 容易 计算 了 。 

有 一 次 ， 我 听 说 在 贝尔 实验 室 ， 第 一 项 任务 就 是 改进 电话 听筒 上 缠绕 的 电话 线 。 
这 则 妙语 是 说 ， 一 美 分 的 改变 (一 种 新 设计 去 掉 了 电话 线 ， 使 话 简 和 听筒 距离 线路 终 
端 更 近 ) 会 演变 成 上 百 万 美元 的 节省 。 不 管 怎样 ， 要 留心 。 


你 的 公司 有 【或 应 该 有 ) 哪些 类 似 的 下 马 威 ? 


. 给 出 一 个 计算 机 化 的 解答 太 早 了。 一 旦 我 重 获知 起， 我 就 建议 心理 学 家 在 一 个 木 块 的 六 面 上 


写 下 {1, 2, 3} 的 6 种 排列 ， 类 似 地 在 男 外 一 个 木 块 上 写 下 压力 级 别 。 当 一 个 观察 者 在 屋子 中 走 
BART, See ay VAPOR Py BAR T A E REALE : 


-一 2 一 | -ra 一 


123 LMH 


尽管 我 为 这 种 简单 、 优 雅 而 有 效 的 解答 感到 高 兴 ， 但 心理 学 家 却 希 望 得 到 实验 背后 的 “电脑 ? 
的 权威 性 。 我 编写 了 这 个 程序 ， 以 我 可 以 在 本 书 中 讲 这 个 故事 为 条 件 。 


. 因为 sqrt 是 一 个 单调 递增 函数 ， 我 们 可 以 在 循环 代码 中 去 掉 平 方 根 ， 而 在 循环 结束 后 计算 一 


次 平方 根 。 许 多 程序 员 对 去 掉 平 方 根子 程序 存在 概念 上 的 障碍 。 
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3. 许多 微机 的 BASIC 解 释 器 中 ， 访 问 一 个 变量 的 开销 和 它 在 符号 表 中 的 位 置 是 成 比例 的 。 因 此 


程序 前 面部 分 使 用 的 变量 比 后 面 执行 时 才 使 用 的 变量 有 更 小 的 开销 。 在 有 指令 缓存 的 机 器 上 ， 
一 个 微小 的 改动 会 将 一 个 内 层 循 环 滑 出 缓存 而 使 总 时 间 增 加 20%。 撰写 本 章 内 容 的 前 一 周 , 一 
个 同事 通过 把 我 写 的 一 个 Awk 程 序 中 的 引号 改 成 斜 杠 而 压榨 出 了 10% 的 性 能 改进 (我 并 不 欣赏 
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LA 


ON 


~] 


OO 


这 种 诡异 的 语义 区 别 )。 


通过 统计 一 份 报纸 上 的 死亡 布告 数 并 估计 他 们 在 这 个 地 区 代表 多 少 人 口 来 估算 当地 的 死亡 
率 。 一 个 更 简单 的 方法 使 用 Littie 定 律 和 寿命 期 望 的 估计 ; 例如 ， 如 果 寿 命 的 期 望 是 70 年 ， 那 
么 每 年 将 有 1/70 即 1.4% 的 人 死亡 。 


. Peter Denning 对 Little 定 律 的 证 明 由 两 部 分 组 成 。“ 首 先 ， 定 义 4= A4/T ， 为 到 达 率 ， 其 中 4 是 


长 度 为 7 的 观察 期 内 的 到 达 数 。 定 义 咎 CT， 为 输出 率 ， 其 中 C 是 7 时 间 内 的 完成 数 。 令 m(0 表 未 
[0, 中 的 时 刻 ! 时 系统 中 的 数目 。 到 是 n() 的 面积 ,单位 是 “项 - 秒 '， 表 示 在 整个 观察 期 系统 中 
所 有 项 的 合计 等 待 时 间 。 每 个 完成 项 目的 平均 响应 时 间 定 义 为 R=WI/C, 单位 是 (项 - 秒 ) 作 项 )。 
系统 的 平均 数 是 n(?) 的 平均 高 度 ， 即 17=W/T， 单 位 是 (项 - 秒 ) /《〈 秒 )。 很 显然 上 =RXK。 这 个 公 
式 只 就 输出 率 而 论 。 并 不 需要 “ 流 平衡 "， 即 流入 等 于 流出 (符号 表示 为 4= 半 )。 如 果 加 入 前 
提 条 件 ， 公 式 就 变 为 L =4xR， 这 是 在 排队 论 和 系统 论 中 遇 到 的 形式 。” 


. Peter Denning 写 道 :“ 假 如 你 有 一 个 服务 器 的 网 络 。 令 玉 表 示 每 个 任务 使 用 访问 〉 服 务 器 ;的 平 


均 次 数 ， 那么 六 +V2+…+Vn 表 示 平 均一 个 任务 的 总 任务 步 。 根据 “强制 流 ” 定 律 : X,=V,xX,» 
整个 系统 的 吞吐 量 和 加 和 服务 器 ;的 局 部 吞吐 量 是 相关 的 。 令 Ro 表示 一 项 任务 经 历 的 响应 时 间 ， 
Lo 表示 系统 中 平均 的 任务 数 。Little 公 式 表 明 ， 系 统 的 响应 时 间 为 Re=Lo/Xp。 但 Lo=Lit*…*+Ly， 
其 中 疙 是 服务 器 上 上 的 平均 任务 数 ; L 二 RiX 钱 ,其 中 Ri 是 每 次 访问 服务 器 ;的 平均 响应 时 间 。 利用 
固定 流 定 律 庆 / 和 加 = 了 可 以 得 到 Ro=R1X Vite t+RyX Vw。 直觉 上 这 是 对 的 , 但 需要 用 Little 定 律 两 次 
才能 简单 而 严密 地 证 明 。” 


. Bruce Weide 写 道 :“ 最 初 的 情况 下 ， “系统” 是 队列 加 服务 器 。 利 用 答案 5 的 表示 法 ，R 是 客户 


花费 在 排队 和 服务 的 平均 时 间 , 工 是 在 队列 和 服务 中 的 平均 客户 数 上 月 。 因 此 由 Little 定 律 ， 我们 
知道 L = RX， 其 中 X 是 服务 器 的 输出 率 。 但 X 也 是 队列 的 输出 率 ， 因 为 一 个 客户 从 队列 进入 服 
务 器 当 且 仅 当 男 一 个 客户 离开 服务 器 。 把 队列 本 身 考虑 为 “系统 ”并 定义 Lo 为 队列 中 的 平均 
数目 ，Ro 为 队列 中 花费 的 平均 时 间 ， 那 么 有 Za= RoX。 那 么 所 需 的 关系 就 是 ， 比 值 L/R 与 Ly/Re 
相等 。” 


. Bruce Weide 给 出 了 这 样 的 解答 :“ 解 这 一 问题 的 一 种 方法 是 考虑 两 个 排队 系统 。 第 一 个 是 正在 


等 等 执行 的 任务 队列 ， 第 二 个 是 计算 机 系统 本 和 喘 。 由 Little 定 律 ， 第 二 个 系统 任务 输出 率 为 和 = 
LIR. ZE, L= 10 个 任务 《因为 总 是 会 有 一 大 批 作 业 墙 在 前 面 ， 系 统 也 总 是 会 有 10 个 任务 在 
执行 ， 因 此 10 也 是 系统 中 任务 的 平均 数目 )。 平 均 时 间 为 R = 20 秒 ， 因 此 为 12 个 任务 每 秒 。 
这 也 是 第 二 个 系统 的 任务 到 达 率 一 一 流 平衡 是 满足 的 因为 L 是 常数 ， 也 就 是 说 每 个 正在 完成 执 
行 的 任务 马上 会 被 下 一 个 任务 取代 。 现 在 第 一 个 系统 的 输出 率 也 必须 为 1/2 个 任务 每 秒 。 因 此 
我 们 可 以 认为 我 们 的 任务 之 前 的 99 个 任务 在 198 秒 之 后 会 完成 。 于 是 我 们 的 任务 在 20 秒 之 后 完 
成 ， 总 等 待 时 间 为 218 秒 。” 
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1. AWK Programming Language 的 6.3 节 描述 了 一 个 生成 UNIX 排 序 命令 的 小 语言 。 
2. UNIX 系 统 在 ed 编辑 器 和 grep 模 式 匹 配器 中 使 用 正则 表达 式 。 
3. 4.1 节 给 出 了 一 个 用 于 描述 目录 参考 的 小 语言 。 


4. AWK Programming Language 的 6.1 节 用 几 十 行 Awk 语 句 实现 了 一 个 汇编 器 和 解释 器 。 栈 用 于 各 
种 语言 ， 从 便携 式 计算 器 《比如 HP 机 器 ) 的 机 器 代码 到 用 于 排版 的 小 语言 (Postscript) 到 通 
HWS (Forth) 直到 硬件 (Burroughs 机 )。 


6. Mark Kernighan 11 岁 的 时 候 开 始 用 BASIC 编 写 音 乐 程 序 ， 用 到 了 下 面 这 个 结构 ; 


1 ' Play a tune 
100 POKE 36874, 262 


110 FOR I=1 to 1000: 


120 POKE 36875, 183 


130 FOR I=1 TO 2000: 


140 POKE 36875, 190 


150 FOR I=1 TO 1000: 


160 POKE 36874, 240 


170 FOR I=1 TO 1000: 


NEXT I 


NEXT I 


NEXT I 


NEXT I 


第 100 行 通过 在 36 874 位 置 “ 插 ” 进 一 个 值 来 产生 一 个 音调 ，110 行 等 待 演奏 ， 而 120 行 通过 另 
外 一 个 生成 器 在 36 875 位 置 插入 一 个 值 。Mark 的 父亲 Brian Kerighan 的 一 次 轻 推 鼓 励 他 考虑 自 
己 编程 方式 的 错误 。 于 是 他 重 写 了 程序 以 使 用 如 下 面 注释 所 示 的 音乐 微 语言 。 

1 ' 1..99 => Delay 


2 ' 100..999 => Tone 1 
3 ' 1000..1999 => Tone 2 


10 DATA 262, 1, 118 


3, 2, 1190, 1, 240, 1, ... 


100 READ X 

110 IF X >= 100 THEN GOTO 140 

120 FOR I=1 TO X+I000: NEXT I 
130 GOTO 100 

140 IF X >= 1000 THEN GOTO 170 
150 POKE 36874, X 

160 GOTO 100 

170 ' 1000 <= X <= 1999 

180 POKE 36875, X-1000 

190 GOTO 100 


8. 处 理 语言 错误 可 以 接受 的 策略 很 多 , 可 以 是 从 单 错 误 探 测 到 多 错误 探测 直到 错误 纠正 。( 当 然 ， 
忽略 错误 是 非常 不 道德 的 ， 因 此 不 被 考虑 。〉 单 错误 探测 报告 输入 中 的 第 一 个 错误 然后 中 止 ， 
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这 一 策略 很 容易 实现 且 对 调试 程序 很 有 帮助 。 多 错误 探测 更 为 有 用 因为 它 会 标 出 多 个 错误 ; 
它 难于 实现 因为 语法 分 析 器 必须 在 解决 一 个 错误 之 后 才能 继续 寻找 下 一 个 错误 。 错 误 纠正 所 
做 的 正 是 用 户 想 要 的 ， 它 难于 实现 并 且 在 猜 错 的 情况 下 会 引起 很 大 麻烦 。 [192] 
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2. 图 中 显示 的 是 选择 算法 的 3 个 变种 ， 其 中 数组 以 水 平 来 表示 ， 时 间 沿 纵 轴 流 逝 。 


步骤 1 X Wa 
avo N iE 
步骤 2N oun Son 己 排 序 


插入 1 插入 2 插入 


左 图 显示 简单 堆 排序 ， 通 过 在 局 部 建立 的 堆 里 向 上 筛选 每 个 元 素来 建立 整个 堆 ， 中 间 图 的 堆 
排 夯 具有 相同 的 第 二 阶段 ， 但 是 从 右 向 左 建 堆 ， 元 素 是 向 下 筛选 的 《附录 B 使 用 了 这 一 版 本 ); 
右 图 是 一 个 插入 排序 ， 不 建 堆 ， 避 免 了 建 堆 的 开销 但 却 极 大 地 增加 了 每 次 选择 的 开销 。 


. 本 题 问 的 是 程序 应 如 何 排版 以 达到 正确 性 、 一 致 性 和 清晰 性 这 3 个 目标 。 

e 正确 性 。 想 要 为 文档 中 添加 一 段 正确 的 程序 ， 最 好 的 方法 就 是 从 电脑 上 的 正确 程序 入 手 。 
如 果 可 以 从 相同 的 源 文件 中 测试 和 排版 程序 ， 事 情 就 容易 多 了 。 我 都 是 尽 可 能 地 这 样 做 。 
然而 在 某 些 章 里 ， 我 用 基于 Pascal 的 伪 代 码 描 述 算法 却 用 C 来 实现 并 测试 。 因 此 我 写 的 C 程 
序 的 形式 尽 可 能 地 接近 最 终 的 伪 代 码 ， 然 后 使 用 文本 编辑 器 进行 剩余 的 修改 工作 (我 知 
道 一 一 我 应 该 写 一 个 程序 来 做 这 个 工作 )。 | 

o 一 致 性 。 程 序 员 在 诸如 大 写 和 缩 进 等 小 细节 上 应 当 保持 一 致 性 。 与 其 保持 你 自己 的 风格 ， 
不 如 遵从 这 个 领域 已 经 存在 的 某 个 标准 。 比 如 ， 我 写 C 程 序 时 尽量 使 用 Kernighan 和 Ritchie 
在 The C Programming Language 中 的 格式 。 

e 清晰 性 。 许 多 系统 ， 例 如 ，Don Knuth 的 wEB 系 统 ， 通 过 区 分 字体 来 生成 清晰 的 程序 ， 关 键 
子 用 bold， 变 量 用 和 斜体， 文本 串 用 typewriter 体 ， 命 令 则 用 罗马 字体 ， 等 等 。 本 书 中 的 程序 

是 用 Courier 体 排版 的 :这 种 固定 大 小 的 字体 反映 了 程序 员 (包括 我 自己 ) 企 终 油 上 看 到 的 
情况 ， 而 当 缩 减 到 相当 小 后 这 种 字体 仍然 是 可 读 的 (例如 ， 见 附录 B)。 193 


第 11 RER 


1. 11.1 节 最 后 一 张 图 是 将 两 张 图 并 排放 置 以 节省 空间 。 因 为 两 张 图 有 共同 的 zx 刻度 和 不 同 的 ? 刻 
度 ， 所 以 把 一 张 图 放 在 另 一 张 之 上 会 更 有 用 。 


3. 左 图 将 重量 作为 每 英里 加 仑 数 的 函数 。 它 的 确 表明 了 一 种 相关 性 ， 但 却 没 给 出 一 般 的 定律 。 


| 
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5000 


4000 





10 20 30 40 0 0.02 0.04 0.06 0.08 0.1 
每 加 仑 英里 数 每 英里 加 仑 数 


贝尔 通信 研究 院 的 Paul Tukey 建 议 与 其 把 重量 看 成 是 每 加 仑 英里 数 的 函数 ， 而 不 是 每 英里 加 仓 
数 的 函数 。 他 的 坐标 图 就 是 右 图 。 图 中 显示 两 个 变量 几乎 是 线性 相关 的 ， 这 也 解释 了 左 图 中 
的 双 曲 线 趋势 。 此 外 ， 回 归 线 通过 原点 。4000 磅 和 21 英里 /加 仓 〈 约 0.048 加 仑 /英里 ) 附近 的 
两 个 例外 点 是 Oldsmobile 98 和 卡 迪 拉克 Seville。 这 两 款 车 的 每 加 仑 英里 数 评测 与 其 他 车 相似 ， 
但 重量 更 大 ， 或 者 说 ， 与 具有 同样 重量 的 车 相 比 ， 这 两 款 车 的 每 加 仑 英里 数 更 多 。 


4. 答案 3 说 明 改 变 坐 标 轴 表 示 使 数据 点 近似 成 直线 排列 可 以 让 关系 变 得 更 明显 。 考 虑 关系 
y=axx*， 等 式 两 边 取 对 数 得 到 
log y = loga+blogx 
如 果 我 们 将 函数 曲线 用 新 的 坐标 xz"= log x 和 y'= log y 表 示 ， 那 么 将 得 到 线性 关系 
y = loga + bx’ 
将 y 转 换 成 y =logy, WHER y=axb 可 得 到 关系 
y'= loga + (log b)x 
对 于 关系 y=aVx+b，, &x =Vx 则 有 y=ax'+b。 转换 坐标 轴 以 突出 关系 的 更 多 细节 参见 J. Ww. 
Tukey 的 Exploratory Data Analysis， 该 书 由 Addison-Wesley 公 司 1977 年 出 版 ， 其 中 第 5 章 和 第 6 
章 特别 与 此 相关 。 


5. 下 面 的 BASIC 程 序 给 出 了 随机 数 生 成 器 RND(1)， 该 程序 返回 0 到 1 之 间 平 均 分 布 的 一 个 伪 随 机 
实数 。 程 序 将 [0, 1] 单位 区 间 分 成 用 户 要 求 的 数目 个 箱子 ， 然 后 在 每 个 箱子 里 生成 一 个 直方 图 
(数组 元 素 B(CD 计 算 第 [个 箱子 中 的 随机 数 个 数 )。 


10 INPUT "Bins"; N . 

20 DIM B(N-1) ' N bins, 0..N-1 

30 FOR I=0 TO N-1: B(I)=0: NEXT I 
40 CLS ' Clear screen 

50 I=CINT (N*RND(1)) 

60 B(I)=B(1I)+1 

70 SET (B(I),1) 

80 GOTO 50 
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SET 子 程序 开启 由 它 的 两 个 参数 描述 的 那个 像素 ，cINT 对 实数 取 整 〈 因 此 cTINT (7 .9) 就 是 7)。 
50 行 到 80 行 之 间 的 无 限 循环 通过 键入 “BREAK” 或 进入 一 个 屏幕 外 像素 而 结束 《尽管 无 限 循 
环 通常 是 不 好 的 实践 ， 但 我 觉得 对 这 样 的 程序 却 很 便捷 )。 我 测试 的 BASIC 系 统 展示 了 不 错 的 
ITA: 箱子 大 小 彼此 很 接近 ， 但 又 不 是 太 接近 。 
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lb. 用户 提供 响应 数据 很 容易 , 这 也 使 得 从 一 个 调查 描述 的 硬 拷贝 表 中 查找 特定 的 响应 变 得 更 容易 。 


3b. 尽管 新 图 和 12.3 节 的 第 一 张 图 包含 同样 的 信息 , 但 我 认为 老 版 本 的 图 在 几 个 方面 有 优势 。 新 版 
本 有 一 些 很 容易 就 能 解决 的 小 问题 。 将 数 按 各 自 的 条 左 对 齐 可 以 减少 视觉 上 的 杂乱 并 有 生 使 图 
便于 比较 。 舍 入 到 整 百 分 数 也 可 以 减少 视觉 杂乱 而 不 会 损失 有 用 的 信息 。 

小 的 改进 并 不 能 解决 新 图 的 主要 问题 ， 基 本 形式 太 笨 抽 。 新 图 的 条 数 是 旧 图 的 一 半 ， 它 
们 的 排列 也 使 其 很 难 进行 比较 。 旧 图 用 一 条 线 定量 地 表示 50%; 新 图 却 需要 三 条 线 。 第 一 张 
图 将 数据 以 同样 的 垂直 顺序 分 类 (Total，Male，Female〉 以 便 读者 可 以 在 不 同 图 之 间 转 换 模 
式 ， 而 新 图 却 需 要 一 个 新 的 模式 。 尽 管 提供 新 图 的 人 为 图 的 眼花 绕 乱 而 兴奋 ， 用 户 却 感到 杂 
乱 无 章 。 公 司 还 是 选择 了 老 的 样式 。 


3c. 贝尔 实验 室 和 普林斯顿 大 学 的 John Tukey 对 12.3 节 的 第 二 个 条 状 图 给 出 了 善意 的 评价 。 他 对 图 
的 制作 有 几 条 建议 。 因 为 “未 知 ” 条 指向 “糟糕 ”和 “非常 糟糕 ”条 ， 它 们 之 间 的 空白 似乎 
会 很 大 (12.3 节 第 一 张 图 使 用 这 样 的 空白 来 表示 数量 )。 因 为 空白 对 本 图 没有 意义 ，Tukey 建 议 
“未 知 ” 条 向 右 指 以 去 挥 暗示 。“ 杰 出 的 ”和 “非常 糟糕 ”类 代表 的 图 中 没有 强调 的 强烈 感觉 
Tukey 建 议 在 这 些 条 上 加 阴影 来 增加 视觉 冲击 。 最后， 他 建议 缩小 数字 的 大 小 会 减少 图 的 杂乱 
感 而 并 不 减少 图 的 可 读 性 。 

Tukey 还 建议 根本 上 改变 图 的 形式 来 强调 其 信息 的 两 个 部 分 : 不 同 官员 的 相对 评价 和 男女 
性 百分比 的 “性 别 差异 ”。 他 建议 重新 对 条 进行 分 类 来 按照 顺序 进行 说 明 。 将 他 的 意见 统一 起 
来 束 得 到 下 面 的 图 ， 我 认为 这 张 图 比 我 画 的 好 多 了 。 


President Reagan 
Senator Domenici 25 J 
Senator Bingaman 
Governor Anaya 






Reagan, Males 
Reagan, Females 


Domenici, Males 27 
Domenici, Females 249 


Bingaman, Males 
Bingaman, Females sm 


Anaya, Males 
Anaya, Females 


Legend 
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第 13 章 答案 
2. Bob Floyd 描 述 了 几 种 可 能 用 于 实现 算法 F2 中 的 集合 S$ 的 数据 结构 : “BNA ITA 100M, 那 
么 位 数组 应 该 就 可 以 了 ; 如 果 b 是 每 个 字 的 位 数 , 那么 运行 时 间 实 际 上 是 常数 OCM)+O(N/b)。” 
“对 于 更 大 的 NW， 用 一 个 大 小 接近 M、 由 数据 的 高 位 作 索 引 的 数组 ， 数 组 元 素 是 指向 包含 
数据 (低位 》 的 有 序 链 表 。 平 均 执行 时 间 为 OCM)， 方 差 为 O(M)， 最 大 为 OC(M)。” 
“一 种 比较 谨慎 的 实现 用 到 了 平衡 有 序 树 。 平 均 和 最 坏 时 间 是 OM log M) ， 方 差 较 小 。” 
. 一 个 对 于 算法 SS 有效 的 数据 结构 对 于 算法 F2 可 能 会 很 慢 。 例 如 ， 当 和 MEN 时， 在 算法 S 中 ， 二 分 
搜索 树 给 出 对 数 的 期 望 搜索 时 间 。 但 是 ， 在 算法 FE2 中 ， 元 素 是 以 递增 的 顺序 插入 的 ， 所 以 二 
分 搜索 树 退 化 成 链表 ， 搜 索 时 间 为 线性 的 。 
. 任何 从 1..N 中 生成 M 元 随机 排列 的 算法 至 少 需要 
log, (NXN -1x xXN-M +1)= x log, 7 


个 随机 位 。 算 法 P 需 要 


tad 


Wn 


> | log, 7 | 


I=N-M+1 
个 随机 位 ， 所 以 它 是 W 位 以 内 最 理想 的 。 
Doug McIlroy 设 计 了 一 个 算法 把 N 个 元 素 中 入 个 元 素 的 第 G 种 组 合 存放 在 数组 4 中 : 


procedure Comb(N, M, G, A) 
D := 1 
while M > 0 do 
T := C(N - D, M - 1) 
if G - T < 0 then 
M := M- 1 
A[M] := D 
else 
G := G — T 
D:=D+1 


函数 c(N,M) 返回 (xp) 。 数组 4 和 整数 G 都 是 “从 零 开 始 ” 的 : 数组 下 标 为 0..M-1， 第 一 个 排列 
对 应 G=0。 因 此 ， 可 以 通过 下 面 的 调用 生成 一 个 1~XN 的 随机 NM 元 子 序列 : 
Comb(N, M, RandInt(0, C(N,M)-1), A) 
这 种 方法 正好 使 用 最 优 的 随机 位 个 数 。 

. Floyd 写 道 :“ 适 合算 法 P 中 序列 S 的 数据 结构 是 一 个 散 列 表 , 它 的 各 项 用 一 个 链表 连接 。 如 果 散 
列表 的 大 小 约 为 2M， 那 么 期 望 的 运行 时 间 是 O(M)。 对 于 这 个 表述 的 一 种 谨慎 的 方法 是 用 一 个 
穿线 的 平衡 有 序 树 ， 期 望 的 和 最 坏 情 况 的 时 间 是 OCM log M) 。” 


8，Burstall 和 Darlington 在 1976 年 的 4cta Informatica 第 6 卷 第 1 期 第 41~60 页 以 及 1977 年 1 月 的 J4CM 


On 
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第 24 卷 第 1 期 第 44 一 67 页 描述 了 一 个 转换 递归 程序 的 系统 。 


9. 我 1986 年 的 《编程 珠 现 》 一 书 中 的 第 11 章 探讨 了 几 种 生成 随机 样本 的 算法 。 例 如 ， 其 中 描述 
T Knuth) The Art of Computer Programming, Volume 2: Seminumerical Algorithms 的 3.4.2 节 的 一 
个 程序 : 

Select := M; Remaining := N 
for I := 1 to N do 
if RandReal (0, 1) < Select/Remaining then 


Print I; Select := Select-1 
Remaining : = Remaining-1 


那 一 章 也 描述 了 集合 S 的 几 种 实现 ， 这 是 算法 S 中 的 主要 数据 结构 。 
第 14 章 答 案 


1. 利用 库 函 数 得 到 初始 猜测 值 。 和 牛顿 方法 的 一 个 循环 就 能 够 得 到 很 接近 所 需 双 精 度 要 求 的 结果 ， 
两 个 循环 肯定 能 够 满足 要 求 了 。 


5. 可 以 利用 和 牛顿 的 方法 求 Ko=a-tUx 的 零点 来 计算 UVa。 和 迭代 式 是 xz = 2xi +ax: 。 下 面 是 求 0.9 的 
倒数 的 收敛 过 程 ， 从 1 开始 : 

.0000000000000000 

.1000000000000000 

.1110000000000000 

.1111111000000000 


.1111111111111110 
.1111111111]11111 


你 能 从 序列 中 每 一 步 正 确 数字 的 个 数 发 现 规律 吗 ? 


6. 这 里 是 一 个 用 于 研究 牛顿 迭代 的 Awk 脚 手 架 程序 。 程 序 的 输入 行 通常 有 3 个 字段 ， 一 个 要 求 平 
方 根 的 实数 x、 一 个 牛顿 迭代 的 初始 值 以 及 迭代 的 次 数 。 


PppPpP 


function abs(x) { if (x < 0) x = -x; return x } 
{ x = $1 
y= Xx 
rootx = sart (x) 
if (NF > 1) 
y = $2 
ub = 10 
if (NF > 2) 
ub = $3 


for (i = 1; i <= ub; i++) { 
printf "5d: $25.16£ %25.16f\n", 
i, y, abs (y-rootx) /rootx 
newy = .5*(y + x/y) 
if (newy == y) { 
print " Converged" 
break 


oo 
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1 


© 


} 

Y = newy 
©} 
} 
如 果 和 迭代 次 数 没有 给 出 ， 那 么 程序 的 默认 值 为 10。( 当 序列 收敛 的 时 候 ， 程 序 也 会 停止 。) 如 
果 没 有 给 出 初始 值 ， 那 么 程序 用 x 自己 来 替代 。 


J. L. Blue 在 1978 年 3 月 的 4CM Transactions on Mathematical Sofmware 第 4 卷 第 1 期 第 1$ 一 23 页 描 
述 了 “一 个 用 来 求 向 量 的 欧 几 里 得 范 数 的 短小 的 Fortran 程 序 ”, 并 且 避 免 了 上 溢出 和 下 溢出 。 


， 见 答案 11 和 答案 12。 
. 我 们 可 以 通过 替换 Max 为 2.0*Max 来 去 掉 第 一 个 赋值 : 


Max := 0.5 * (2.0*Max + Sum/ (2.0*Max) ) 
代数 变形 得 到 
Max := Max + Sum/(4.0*Max) 


TAT- RFE AIL Bt A EAT BY TE 


12. Andrew Appel 用 保存 最 大 的 平方 值 并 在 循环 外 计算 它 的 绝对 值 的 方法 ， 使 得 kK 个 绝对 值 被 
替换 成 一 个 。(Bob Floyd 发 现 如 果 利 用 绝对 值 的 和 作为 初始 值 ， 可 能 会 更 节省 。) 下 面 的 代码 
结合 了 Appel 的 改进 ， 并 利用 查 表 得 到 了 较 好 的 初始 值 。 它 比 程 序 4 快 大 约 10%。 


MaxT := T := A[1] - B[1]} 
MaxT2 := Sum := TrT 
for J := 2 to K 
T := At] - B[J] 
T2 := T-T 
if T2 > MaxT2 then 
MaxT := T 
MaxT2 := T2 
Sum := Sum + T2 
if Sum = 0.0 then return 0.0 
if MaxT < 0.0 then MaxT := -MaxT 
T := MaxT * DistTab[trunc (Scale*xSum/MaxT2)] 
T := 0.5 * (T + Sum/T) 
return 0.5 * (T + Sum/T) 


它 用 到 一 个 浮 点 数 向 量 ， 由 下 面 的 代码 初始 化 


float DistTab[Scale..K*Scale] 
for I := Scale to K~Scale do 
DistTab[I] = sqrt((I+0.5)/Scale) 


我 用 Scale=20 得 到 了 单 精度 的 准确 度 。 我 原来 初始 化 表 的 代码 使 用 了 系统 平方 根 函 数 , FEK=16 
的 时 候 花 费 了 0.3 秒 。 通 过 使 用 上 一 次 的 平方 根 计 算 结果 作为 初始 值 并 且 作 三 次 牛顿 迭代 ， 可 
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以 使 它 的 速度 提高 一 个 数量 级 。 


14. W. Kahan “REEM” YX (Berkeley Computer Science Technical Report #20)， 后 来 以 
National Technical Information Service Report AD-769 124 出 版 。 在 第 19 章 的 52 页 上 ,Kahan 说 明 
了 问题 中 的 程序 在 IBM 650 上 可 能 不 终止 ， 在 其 他 机 器 上 也 可 能 出 现 问 题 。 


15. 斯 坦 福 大 学 的 Bob Floyd Sik: “如 果 第 个 近似 值 用 斥 除 ， 第 it1 个 用 Wf)=(f+(//))/2 来 
除 ， 其 中 /有 )= G1/ 有 )， 在 /和 和 1/ 之 间 时 使 用 较 小 的 值 ， 在 其 之 外 时 使 用 较 大 的 值 。 显 然 ， 这 
对 于 使 得 log 的 最 大 绝对 值 最 小 化 来 说 是 正确 的 。” 
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1. Floyd 和 Rivest 在 《ACM 通 讯 》1975 年 3 月 的 文章 上 说 明了 如 何 取样 使 选择 算法 在 理论 和 实际 中 
都 有 很 高 的 效率 。 


2. 这 个 循环 展开 代码 只 用 3 次 比较 对 数组 寻 1..3] 排 序 。assert 语 句 表 明了 每 条 语句 执行 后 所 得 到 
的 顺序 。 


if X[1] > x[2] then 
swap (X[1], X[2]) 
assert X[1] < X[2] 
if X{2] > X[3] then 
swap (X{2], X[3]) 
assert X[1] < X[3] and X[2] < X[3] 
if X[1] > X[2] then 
swap (X[1], XI[2]) 
assert X[1] < X[2] < X[3] 


这 通常 是 计算 三 个 元 素 的 中 位 数 的 最 快 的 方法 了 。 为 了 找到 包含 一 百 万 个 数 的 磁带 上 的 第 
1 000 小 的 数 ， 可 以 在 读 取 磁带 的 同时 ， 把 当前 最 小 的 1000 个 元 素 保存 在 一 个 最 大 值 堆 中 。 


3. 寻找 磁带 上 NN 个 数 的 中 位 数 的 随机 二 分 搜索 方法 只 需要 几 个 变量 ,遍历 磁带 O(log N) 次 。 变 量 
L 和 UU 表示 已 知 的 包含 中 位 数 的 区 间 的 上 下 界 ， 它 们 初始 化 为 集合 中 的 最 小 和 最 大 元 素 。 算 法 
的 每 一 步 遍 历 磁带 两 次 。 第 一 次 把 磁带 上 区 间 [L, UJ] 之 间 的 一 个 随机 整数 保存 在 变量 M 中 (第 
一 个 整数 总 是 保存 在 W 中 ， 第 二 个 被 保存 的 概率 是 112， 第 三 个 是 113， 依 此 类 推 )。 第 二 次 遍历 
中 ,计算 有 多 少 个 元 素 小 于 M 以 及 多 少 个 元 素 大 于 M， 然 后 将 MM 保存 在 L 或 U 中 。 过 程 继续 直到 
M 是 中 位 数 。 这 通常 需要 遍历 磁带 O(log N) 次 ， 平均 总 运行 时 间 为 O(N log N) 。 

如 果 有 第 二 个 磁带 驱动 器 ， 可 以 通过 用 一 条 磁带 保存 当前 在 区 间 内 的 元 素 ， 把 期 望 运行 
时 间 减 少 到 O(N)。 每 一 次 遍历 磁带 有 三 步 。 第 一 步 与 上 面 的 描述 相同 ， 第 二 步 把 有 用 的 元 素 
复制 到 第 二 条 磁带 上 ， 第 三 步 再 把 它们 复制 回 第 一 条 磁带 。 


4. Blum、Floyd、Pratt、Rivest 和 Tarjan 在 20 世 纪 70 年 代 初 发 现 了 一 个 最 坏 情 况 线性 时 间 的 选择 算 
法 。 大 多 数 算法 教材 对 他 们 的 算法 进行 了 详细 描述 。 


No 
© 


KO 
O 
ok 


180 ”部 分 习题 答案 


. 变量 C 表示 CCount(N) KARE EME, CCount(N) 为 选择 算法 在 一 个 N 元 数组 中 找到 最 小 元 素 所 


用 的 比较 次 数 。 这 个 程序 利用 问题 中 给 出 的 递归 关系 计算 C,C,…,Cy 。 
c[0] := c[1] := 0 
print C[0], CI[1] 
for N := 2 to M do 

Sum := 0 

for I := 0 to N-1 do 

Sum := Sum + CI[I] 
C(N] := N-1 + Sum/N 
print C[N] 


如 果 保 存 前 一 次 的 Sum 值 ， 可 以 把 运行 时 间 从 OM?) 减少 到 O(M) 。 


e[0] := c[1] := 0 
print C[0], CI[1] 
Sum := C[0] + C[1] 


for N := 2 to M do 
Sum := Sum + C[N-1] 
CIN] := N-1 + Sum/N 
print CI[N] 
下 面 的 代码 不 需要 表 C[0..MJ， 而 是 把 CIN] 存 放 在 变量 LastC 中 。 
Sum := 0 
LastC := 0 
print 0, 0 
for N := 2 to M do 
Sum := Sum + Lastc 


LastC := N-1 + Sum/N 
print Lastc 


可 以 用 这 个 程序 来 实验 性 地 检查 算法 的 行为 。 另 外 ， 程 序 的 结构 暗示 了 Cw 的 求 和 公式 (把 复 
杂 的 递归 转化 成 一 个 和 ， 通 常 称 为 “压缩 ”)， 管 案 是 C, =2(N -Hy)， 这 里 表示 第 N 个 调 
和 数 : 


1+1/2+1/3+:…+1/N 


. 1971 年 5 月 的 《ACM 通 讯 》 中 ,算法 410 可 以 “部 分 排序 ”一 个 数组 ， 它 归功 于 John Chambers. 
. 一 个 集合 中 第 一 和 第 二 大 的 元 素 可 以 在 N+log, N+0O(0) 次 比较 之 内 找到 。 Knuth 在 《计算 机 程 


序 设 计 艺 术 ， 卷 3: 排序 与 查找 》? 的 5.3.3 节 提出 了 这 个 算法 以 及 其 他 迷人 的 算法 ， 它 们 可 以 
用 最 优 的 比较 次 数 计算 次 序 统 计 问 题 。 
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